python中文分词，使用结巴分词对python进行分词

yangjiyue

浏览: 21439 次
来自: ...

最近访客更多访客>>

aspireyc

youcp999

bluxs

mamaoyuan625

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

互联网
python
爬虫
web

python 分词

在采集美女图片时,需要对关键词进行分词,最终采用的是python的结巴分词方法.

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

模式

默认模式，试图将句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut 方法用于分词
cut方法接受两个输入参数：
- 　　第一个参数为需要分词的字符串
- 　　cut_all参数用来控制分词模式
待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list
seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

分享到：

Python3爬虫视频学习教程 | Python3爬虫视频学习教程

2017-11-09 14:52
浏览 736
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python中文分词，使用结巴分词对python进行分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python中文分词，使用结巴分词对python进行分词

评论

发表评论

相关推荐

用 PHP 爬虫做旅游数据分析

PHP 中 SESSION 反序列化机制

python里使用正则表达式

Html5+离线打包创建本地消息

Python操作MySQL数据库实例

python语法基础之：使用python实现-冒泡排序

LAMP服务器安装知识点汇总

大型网站技术核心原理与案例分析

Python：网络爬虫相当利器

Ionic 图片预览可放大缩小左右滑动demo-iClub图片预览

python基础语法知识

使用php编写百度sitemap

如何使用php向百度站长平台推送

老板给了你1000张美女model照片，让你选5位出来参加展会，请问你如何选

不错的php分词系统-PHPAnalysis无组件分词系统

Python3爬虫视频学习教程

Python3爬虫视频学习教程

Python采集实例2

Python采集实例1

Python3做采集

最近访客更多访客>>