在采集美女图片时,需要对关键词进行分词,最终采用的是python的结巴分词方法.
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
- 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
- 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
安装(Linux环境)
下载工具包,解压后进入目录下,运行:python setup.py install
模式
- 默认模式,试图将句子最精确地切开,适合文本分析
- 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎
接口
- 组件只提供jieba.cut 方法用于分词
-
cut方法接受两个输入参数:
- 第一个参数为需要分词的字符串
- cut_all参数用来控制分词模式
- 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
- jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list
- seg=jieba.cut("http://www.gg4493.cn/"):
实例
#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)
结果
相关推荐
下面小编就为大家带来一篇python中文分词,使用结巴分词对python进行分词的实例讲解。有比较好的参考价值,希望能给大家做个参考。一起跟随小编过来看看吧
结巴分词,很不错的分词工具,python写的,亲身试用,不管英文还是中文分得很准!
jieba:“结巴”中文分词:做最好的 Python 中文分词组件
jieba(结巴分词) 免费使用 HanLP(汉语言处理包) 免费使用 SnowNLP(中文的类库) 免费使用 FoolNLTK(中文处理工具包) 免费使用 Jiagu(甲骨NLP) 免费使用 pyltp(哈工大语言云) 商用需要付费 THULAC...
结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性...
压缩文件之中包含了结巴中文分词的说明文档,以及Java,Python,C++的使用示例。对于自然语言处理(NLP)有帮助。
西游记素材用于python结巴分词可视化素材 仅供学习,无商业用途
delphi+Python结巴分词例子源代码,用到组件PythonForDelphi
“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...
中文分词、标注系统源代码,我用过挺好的跟大家分享一下
基于Python的中文结巴分词技术实现
模拟搜索引擎关键词自动分词(python利用结巴分词关键词自动提取)
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。 官网...
结巴分词的源代码,python。
生成词云 并且能够对生成的词云进行结巴分词
结巴分词器组件,python下的中文分词工作,挺好用的.
比较好的Python下的中文分词工具,但是速度不是特别快,可以看看我的博客说明