`

对分词的一些看法,最近看到不少,不说不快

阅读更多
关于分词得研究由来已久,最近看到博客园里类似文章不断,于是想说说自己的看法。

    对于分词算法,首先我觉得是一个数学和文学的问题而非编程技术的问题,肯到很多同学不厌其烦的孜孜不倦的追求最完美的分词程序,其实我看大可不必,当然对于编程技术的完美追求是好的,不过应该是力气用错了地方。
    最先看到的是《天书般的ICTCLAS分词系统代码(一) 》,在此不对zhenyulu兄的Post做任何评价,不过在看到很多人发布自己的分词代码,感觉很多同学在用一个庞大的工程来锻炼自己写链表的能力,实在觉得浪费资源。分词是一个算法问题,这个也许是只有汉语才存在的问题(英文其实不需要分词,因为每个单词用空格隔开了)对于算法问题是首先需要有了优秀的算法,才能出现优秀程序,而对于中文分词,很多同学都用程序的眼光去看待其实是不对的,打个比方,冒泡法排序,算法已经确定的情况下你的程序再优化也不能超过其理论上限,这个是数学理论所决定好了的,数学是所有科学的基础,如果向基础理论挑战无疑是唐吉坷德挑战风车一般。程序无非是用计算机语言去诠释数学的理论,而面向搜索的中文分词设计 一文所发布的程序,个人认为精神可嘉,但行为不可取,因为从根本上的算法就不够先进,所以程序出来也不会很出色,如果大家想研究算法的话,还是先搞好算法本身,再去用程序证明会比较好一点。

   PS一下,说说自己对分词算法的一点看法,分次算法首先要对中文的文法有深入的研究才能提出最优化的算法,呵呵,所以想搞中文分词的话最好学好语文先:}。根据自己学习母语二十多年来的一点浅薄经验来看,中文整句的分词识别找到谓语是最重要的,因为谓语是构成文法的谓词结构主要组成部分,谓语一确定,主语宾语的词分出来就好识别的。

不是自己的主攻方向,不过说点自己的见解,如果有不同意见欢迎讨论
分享到:
评论

相关推荐

    中文分词中文分词中文分词

    中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词

    C++中文分词源码,分词的方法

    迄今为止,已经有许多文献对各种分词方法进行探讨,其着重点或为分词的速度方面,或为分词的精度方面以及分词的规范。本文主要探讨分词的速度问题,通过实验对比和理论分析,说明我们所提出的算法是有效的。 目前...

    ELK 不分词

    Elasticsearch 不分词 ELK不分词 kibana不分词。 采用创建模板方式。创建完后删除以前的索引或者重启es吧

    中科院分词系统中科院分词系统中科院分词系统

    中科院分词系统中科院分词系统中科院分词系统中科院分词系统中科院分词系统中科院分词系统

    分语算法,分词算法介绍

    分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 ...

    中文分词词库汇总

    汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),...包含word/jieba/mmseg/IK分词工具的最近词库。 注意:分词时,不一定是词库中的词越多,效果越好。

    对excel分词并保存到csv

    中文分词 [1] 。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个...

    分词_python分词_

    利用python对三体进行分词 并进行词频统计

    最新逆向最大匹配分词算法 盘古分词 分词算法 中文分词 源码

    最新逆向最大匹配分词算法 盘古分词 分词算法 中文分词 源码

    分词算法介分词算法介

    词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语分词介绍分词算法 汉语...

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    百度以前用的中文分词词典,希望对大家有一点帮助

    结巴分词jar包

    jieba “结巴”中文分词:做最好的...搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 详情,见https://github.com/fxsjy/jieba

    使用IK Analyzer实现中文分词之Java实现

    从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟...

    java版本结巴分词

    java版本结巴分词。添加了自定义分词、阻止词、分词词性等。

    中文分词excel版本

    中文分词第三版@Excel大全,VBA技术实现的中文分词程序

    新版盘古代码+分词词库+分词工具

    新版盘古代码+分词词库+分词工具 Pan Gu Segment is a library that can segment Chinese and English words from sentence. 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量...

    自己收集的一些分词工具

    自己收集的一些分词工具,包括中科院的ictclas,ansj,fudanNLP等等,相信对搞自然语言处理的有帮助

    中文分词词库大全词库

    这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上...

    es7.0 ik的分词器

    es提供的分词是英文分词,对于中文的分词就做的非常不好了,ik分词器是针对中文分词 来用于搜索和使用。

    Solr5.5搜索引擎之分词原理说明

    介绍了Solr5.5内部使用的分词原理,有助于开发者自定义自己的分词器时掌握分词的基础知识。

Global site tag (gtag.js) - Google Analytics