`
icenows
  • 浏览: 56055 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类

搜狗实验室新闻素材整理

阅读更多

先把数据库的截图发一下,明天再写总结。


sohu_news_src_DB

所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。
实现过程总结如下:
第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共分成15个频道,——按照URL进行划分,最终结果如上图所示(因为数据库设置问题,有一个频道出错了,在处理中)。
第二阶段:选择某一个频道, 使用IK_Analyser算法进行双向全切分,统计分词结果中包含在分词字典中的词组进行词频统计,同时将存储所有分词序列。这里有一个设置是,只有在分词词典中出现的词,才会进行统计。为了最大限度的消除由于词典不完善,以及分词歧义带来的影响,考虑将连续的单子,单子+前后词组成待确认词,统计他们的出现频率,汇总后由人工进行确认。目前阶段先不考虑自动调整词典的实现方法,只是提供候选的词语组合,确认之后手动添加。
初步思路是这样的,有一些实现细节还没有考虑清楚。目前的另一个想法是收集新浪的新闻资源。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics