先把数据库的截图发一下,明天再写总结。
sohu_news_src_DB
所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。
实现过程总结如下:
第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道,——按照URL进行划分,最终结果如上图所示(因为数据库设置问题,有一个频道出错了,在处理中)。
第二阶段:选择某一个频道, 使用IK_Analyser算法进行双向全切分,统计分词结果中包含在分词字典中的词组进行词频统计,同时将存储所有分词序列。这里有一个设置是,只有在分词词典中出现的词,才会进行统计。为了最大限度的消除由于词典不完善,以及分词歧义带来的影响,考虑将连续的单子,单子+前后词组成待确认词,统计他们的出现频率,汇总后由人工进行确认。目前阶段先不考虑自动调整词典的实现方法,只是提供候选的词语组合,确认之后手动添加。
初步思路是这样的,有一些实现细节还没有考虑清楚。目前的另一个想法是收集新浪的新闻资源。
分享到:
相关推荐
其中包含的val(已整理的搜狗实验室新闻文本数据)、stopwords数据来源于网课资源,能够帮助新手尽快完成一次新闻文本分类的实战项目
机器学习中搜狗实验室发布的搜狗新闻数据集
搜狗实验室新闻数据 文本分类
搜狗实验室新闻分类语料库,主要有10个分类,共50多万条记录 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事
搜狗实验室1个月数据,我已经整理过,做好了分类,并且去除了无用数据
用来测试word2vec的数据样本,从搜狗实验室全网新闻数据库http://www.sogou.com/labs/resource/list_news.php 下载并提取出新闻内容的数据。
搜狗实验室(用户查询日志)SogouQ.reduced,用于做大数据分析的数据
搜狗实验室 文本分类语料库。可用于进行文本开发等相应实验练习
搜狗实验室技术交流文档 解决C10K问题.zip
词库比较全,可以用于基于机械分词的小型中文分词系统
搜狗实验室用于文本分类的语料库,包含财经、互联网、健康、教育、军事、旅游、体育、文化、招聘9个类别文本数据,每个类别包含1990篇文本。
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类...
整理自搜狗实验室中的新闻分类。含有金融、体育、军事等11个分类集。
搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。
搜狗实验室新闻数据精简版,将xml文本进行处理后分类如下: 奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt ...
搜狗1.4G 新闻语料集
整理搜狗2008版搜狗新闻分类语料库和全网新闻分类语料库--转存至mysql数据库
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类...
在搜狗实验室下载的搜狐新闻数据整理后的一部分中文分类语料~