`
hupy
  • 浏览: 187032 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

分析百度的中文分词结果

阅读更多

本结果是基于20000次以上的搜索分析百度而的来的,如有不当请指正,希望我们能够一起来揭开百度分词的面纱。

在大家的心目中可能百度的分词是极其复杂的,他代表了中国分词领域的最高水平,其实不然,简单最好,裸体最美,当我们拨下百度的衣服,既然会发现百度的分词是如此的简单,可能正应了一个名人的某一句话:当用户输入查询关键字的时候我们要准确的知道用户在想什么!这正是百度所追求的,他把所有的工作都放在了处理用户查询关键字的时候。

本分析结果也是无意得到的。www.sj110.com搜价110是Handsome man Eunge带领下的一个项目,因我是pwqzc老鼠,老鼠吗,就是打点小洞,所以我负责词库这一块,为了词库的精确,在处理词库的时候经常查询百度,查多了,想多了,问题就出来了,竟然发现对百度的分词稍微有了点了解,这个是我无意撞上的,就如一个送水的汉子,碰上了一个要水的少妇,而这个少妇的男人三年前出门至今未归,此MM鸡渴难耐,于是和那个送水的汉子发生了不该发生的事,呵呵,都是撞上的。

下面是我的一些分析结果,凡是我可以肯定的,我都注明了。

1.百度的蜘蛛爬到的文档索引入库的时候是只进行了简单的分词处理(我可以肯定),也就是只是简单的把中文单个字单个字的分开,要证明这点很简单,你只需要搜索“地”或者“书”或者“脑”。。。。。。等单个词就可以了,当然,你也可以找一些莫名其妙的两个字或者三个字组合在一起搜索百度看,你就会明白他入库的时候只进行了简单的把单个中文分开的处理。他把复杂的分词逻辑放到了处理用户输入查询关键字的时候。仔细一想,其实这样做能够最大限度的消除歧义!!!

2.当用户输入两个字和三个字的词进行搜索的时候百度也没有进行任何处理的(我可以肯定),也只是把他们简单的按照单个字分开,然后查询的时候条件是这两个字或者这三个字必须连接在一起,中间没有任何其他的字。要证明这点也很简单,大家只要输入任意两个字的词或者三个字的词进行搜索就可以了,甚至你可以搜索“甘新哦”,“春天气”,“哦人无”等毫无意义的词进行查询,看是不是出来的搜索结果要么是没有找到任何内容,要么是包括你输入了的任何字,而且这些字都是连接在一起的,虽然这些字他们之间的组合是毫无意义,这也同时证明了百度在索引入库的时候是只进行了简单的按照单个中文分开。

3.百度如何处理四个字?我们输入“李宇春天”搜索,结果是被分成了“李宇”和“春天”,这给我们带来了两个疑问:第一,如果李宇春已经收录到了词典里面,那么肯定肯定百度是正向分词。第二,如果李宇春没有被收录到词典里面,那么可能是正向分词也可能是逆向分词。那么到底是那种呢?我们先判断百度处理查询关键子的时候是逆向分词还是正向分词。我们再输入“笔畅通行”来搜索他被分成了“畅通”,我想笔畅应该不会被收进词典,按此分析应该是正向分词;我们再输入“笔畅通知”,很明显被分成了“笔畅”和“通知”,这看起来是逆向分词的结果,如果是正向的话那也会被分成“畅通”的;我们再输入“桃李宇春”搜索,结果被分成了“桃李”和“宇春”,这看起来象正向分词,当然这也不能够证明就是逆向,因为如果李宇春没有收进词典,这逆向分词也会得到同样的结果。那么百度到底是正向还是逆向呢?我们抛开名字吧,因为我们还不感肯定象李宇宙春之类的词是不是在百度的词典里面,现在我们输入“神彩票啊”,很明显被分成了“彩票”,再输入“光彩票啊”,很明显也被风成了“彩票”,再输入“啊中国家”,结果被分成了“国家”,再搜索 “啊国家庭”,被风成了“家庭”,我们再输入“风岁月亮”搜索,被分成了风岁和月亮,再输入“风岁月球”,被分成了“分”,“岁月”和“球”,再输入“风岁月份”,被分成了“分色”和“月份”,这样的结果看起来真的很让我们郁闷!!!极度郁闷!!更郁闷的是还在后头啊,我输入“笔畅通过”搜索,第一次的所有结果是全部把这四个字搜索出来,而且他们都是连接在一起的,而且这四个字之间没有任何其他的字!!但是我们过几分钟再次搜索,结果竟然截然不同!!! “笔畅通过”被分成了“畅通”!!!!这里我不敢乱下结论,如果是我,那我应该怎么样去处理四个字的关键字呢?

一,首先取这四个字去匹配词典,如果匹配成功,则查询条件如ABCD,返回的结果必须包含ABCD,且ABCD必须连接在一起,中间没有任何其他字,在这里我首先假设索引入库的时候是只进行了简单的按照单个字切分,且搜索的时候能够判断索引文件里的A/B/C/D等文字中间有没有其他的文字。

二,如果一匹配不成功,则截取前面两个字匹配词典,如果匹配成功,则如ABCD分成AB/CD,查询结果必须包含AB和CD,AB之间不能够有其他文字,CD之间也不能够有其他文字,AB和CD之间可以出现其他文字;查询结果可以包含ABCD全部连接在一起四个字之间没有其他文字的结果,且其排序优先于AB/CD。

三,如果二匹配不成功,则截取最后面两个字匹配字典,如果匹配成功,采取和上面二一样的做法。

四,如果三匹配不成功,则截取中间两个字匹配词典,如果匹配成功,则如ABCD查询的结果里面必须BC,且BC之间没有其他文字,结果也可以包含BCD,结果也可以包含ABC,结果也可以包含ABCD,结果排序优先规则(从最优开始):ABCD全部连接在一起的结果------BCD全部连接在一起的结果或ABC全部连接在一起的结果------BC全部连接在一起的结果。

五, 如果四匹配不成功,则可以肯定他是地名人名或者其他专有名词或者这四个字连起来没有任何意义,则采用一的方法。

暂时写到这吧,其他的慢慢来

 

来源:http://www.cnblogs.com/pwqzc/archive/2006/04/17/376832.aspx

分享到:
评论

相关推荐

    有关百度中文分词系统分析.doc

    有关百度中文分词系统分析.doc

    baidu.rar_baidu_中文 词库_中文信息处理_分词_词库

    中文信息处理的分词词库,百度分词词库,用于中文信息处理的词库分析和源程序链接

    中文搜索引擎的分词技术百度的分词技术分析

    主要讲解了中文分词技术原理 <br>和 百度的分词技术分析

    中文分词中文切词分词

    中文分词源代码,论文全部都有,获得2010界准阴工学院优秀毕业设计 词库高达几十万

    基于python的中文分词程序

    使用Python编写的中文分词软件,功能多样,可以自己更换字典,也有机器学习,检测中文人名,检测高频词语等多种功能,速度适中,准确率可观.

    简单理解NLP中文分词

    中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词...

    ICTCLAS30汉语分词

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    lac:百度NLP:分词,词性标注,命名实体识别,词首

    工具介绍LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势:效果好:通过深度学习模型联合学习分词,词性标注,专名...

    百度指数分析工具.rar

    16.中文搜索引擎技术-解密分词技术.rar ....... 如果有什么疑问请登录博客留言,程序员百味非常高兴能认识一位做seo的朋友!希望我们能一起努力! come on! believe yourself! 程序员百味博客:...

    情感分析词库.zip

    zip包里包含情感分析所需要的程度级别词语,积极词库,消极词库,否定词,总结了知网,大连理工等词库,实用有效!!!

    几乎最全的中文NLP资源库.zip

    语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括...

    Python-百度的中文开源词法分析工具LAC

    中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程。因为在汉语中,词是承担语义的最基本单位,切词是文本分类、情感分析、信息检索等众多自然语言处理任务的基础...

    基于网络爬虫技术的网络新闻分析【源代码+数据库+论文+视频分析讲解】.rar

    基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本系统结构如下: (1)网络爬虫模块。...(2)中文分词模块。 (3)中3文相似度判定模块。 (4)数据结构化存储模块。 (5)数据可视化展示模块。

    舆情监控系统分析对比.xlsx

    ","开普云舆情分析 " 技术特点,"爬虫云 数据云 ","自然语言处理技术 自动分词技术 自动关键词与自动摘要技术 全文检索技术 相似搜索与消重 ","自然语言处理技术 中文信息处理技术 中文分词技术 互联网信息智能抓取...

    【精品】百度-智慧园区云计算大数据人工智能三位一体解决方案69页.pdf

    三大优势语义分析提供分词、词性标注、命名实体识别三大功能应用场景最广泛主短文本相似度涵盖了智能对话系统,相似内容推荐,评论聚合等领域输入两段中文短文本,即可输出文本间的语义相似度算法种类最丰富连评论...

    张华平、商建云_NLPIR-Parser大数据语义智能分析平台2

    和文本摘要提取、计算文档词频和文本相似度计算等工具;sklearn提供分类、聚类、回归、预处理、模型选择等工具;HanNLP提供中文分词,命名实体识别,关键词提

    一站式掌握elastic search基础与实战视频资源-百度云链接

    03-07 -中文分词.mp4 03-08 -自定义分词之CharacterFilter .mp4 03-09 自定义分词之Tokenizer .mp4 03-10 -自定义分词之 TokenFilter .mp4 03-11 -自定义分词.mp4 03-12 -分词使用说明 .mp4 03-13 -官方文档说明.mp4...

    IK Analyzer.zip

    最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK...

    百度自然语言处理部研发的一款联合的词法分析工具

    LAC全称Lexical Analysis of Chinese,是实现中文分词、词性标注、专名识别等功能

    【人工智能AI-人工智能】Senta百度开源的情感分析系统

    为方便使用demo数据中提供了完整数据,数据集下载地址,数据集使用例子如下,其中为了方便模型使用,下面数据是将文本进行分词处理后结果,标签用BIO标记评论实体或者事件。 谢谢大家的支持与理解。

Global site tag (gtag.js) - Google Analytics