- 浏览: 147275 次
最新评论
-
Rannn:
我只是偶尔路过的。二叉树的深度为lg(n) 叶子为2^(L-1 ...
完全二叉树叶子节点个数计算问题 -
have_life:
按住Ctrl+Shift 然后 按 -> 这样的光标键, ...
eclipse快捷键 -
have_life:
启动chrome隐身模式 Ctrl + Shift + N ...
快速恢复刚刚关闭的Chrome标签页的方法 -
have_life:
Shift + Alt + A 光标会变成一个十字 ...
eclipse快捷键 -
have_life:
Ctrl + Shift + X 把所有选中字母变大写Ctrl ...
eclipse快捷键
相关推荐
机器学习中搜狗实验室发布的搜狗新闻数据集
其中包含的val(已整理的搜狗实验室新闻文本数据)、stopwords数据来源于网课资源,能够帮助新手尽快完成一次新闻文本分类的实战项目
搜狗实验室(用户查询日志)SogouQ.reduced,用于做大数据分析的数据
搜狗实验室新闻数据 文本分类
用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php 下载并提取出新闻内容的数据。
搜狗实验室1个月数据,我已经整理过,做好了分类,并且去除了无用数据
搜狗实验室新闻分类语料库,主要有10个分类,共50多万条记录 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事
搜狗实验室用于文本分类的语料库,包含财经、互联网、健康、教育、军事、旅游、体育、文化、招聘9个类别文本数据,每个类别包含1990篇文本。
搜狗实验室 文本分类语料库。可用于进行文本开发等相应实验练习
搜狗实验室技术交流文档 解决C10K问题.zip
词库比较全,可以用于基于机械分词的小型中文分词系统
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。...语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
这是一个《大数据挖掘技术》@复旦课程项目,试图从搜狗实验室用户查询日志数据(2008)中找出搜索记录中有较高支持度关键词的频繁二项集。在实现层面上,我搭建了一个由五台服务器组成的微型 Hadoop 集群,并且用 ...
基于某Spark地大大数据精准营销中搜狗搜索引擎地用户画像挖掘.docx基于某Spark地大大数据精准营销中搜狗搜索引擎地用户画像挖掘.docx基于某Spark地大大数据精准营销中搜狗搜索引擎地用户画像挖掘.docx基于某Spark地...
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。 提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类...
选题:搜狗日志查询分析 (MapReduce+Hive综合实验) 前提条件: 安装好hadoop2.8.0 安装好HQL 安装好Hive 安装好eclipse 选题要求: 解压数据源,并上传到hdfs,保存的目录以个人学号区分,176为我的学号 创建hive...
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。...语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据...
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt ...