`
emowuyi
  • 浏览: 1481464 次
文章分类
社区版块
存档分类
最新评论

基于python的中文词频分析

 
阅读更多

受http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/这篇文章的启发,觉得PYTHON来做文字处理分析应该不错,可以来做个词频分析,分析聊天记录可以看出每个人的说话习惯

用的是暴力方法 不用语义分析 直接列出所有出现的字词

做下来觉得难点就在中文编码这部分 python下中文涉及的编码转化确实要琢磨一番

首先数据文件要存为utf-8格式

在python显示中文的关键代码:

txt为中文字符串

搜索中文,用正则表达式匹配:


字典排序,按照value排序,代码很精简:


代码:

感觉匹配的代码还不是很好

于是改了一个直接在utf-8格式下搜索的代码


但实际运行速度太慢了,有时还有错误,望高手指点这部分

最后还是用正则搜索的代码,虽然代码比较冗长 运行速度还可以 50万字的文件 不到一秒就统计完了

(不太理解这里的python正则搜索的速度比数组存取怎么快这么多)

因为这种方法没有什么语义算法,所以得到的结果还需要一些人工筛选

聊天记录的统计效果:

低频单字


高频单字


多字


也来分析下唐诗宋词

单字的话

香,106

何,107

有,109

夜,109

日,111

千,114

年,114

是,114

时,115

相,117

雨,118

月,121

处,128

云,133

山,141

春,157

来,160

天,163

花,179

一,184

不,189

无,193

风,230

人,276


多字


归去,14
明月,14
西风,15
盈盈,15
不见,16
万里,17
多少,17
相思,18
风流,18
当年,18
浣溪,19
回首,19
少年,20
无人,20
千里,22
人间,24
何处,31








分享到:
评论

相关推荐

    基于python的三国演义词频分析

    基于python的《三国演义》的词频分析,中文、英文分析均有。

    红楼梦词频分析.py

    通过python及其jieba三方库,筛选关键词,整合《红楼梦》人物出场排名,也可整合《红楼梦》词汇使用情况,从而分析《红楼梦》的角色戏份及用语习惯。

    基于 python卷积神经网络(CNN)应用于中文文本分析任务

    【作品名称】:基于 python卷积神经网络(CNN)应用于中文文本分析任务 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 使用方法: 1、...

    Python实战教程:数据分析

    内容概要:基于Python对微信进行数据分析,这里选择的维度主要有:性别、头像、签名、位置,主要采用图表和词云两种形式来呈现结果,其中对文本类信息会采用词频分析和情感分析两种方法。常言道:工欲善其事,必先利...

    基于Python分析女朋友情绪值波动【100012623】

    基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG),采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的 HMM 模型,...

    基于Python爬虫+K-means机器学习算法今日热点新闻推荐系统-热点推荐、热词呈现及个性化分析(含全部工程源码)

    1.项目基于网络爬虫技术爬取新闻,进行中文分词和特征提取,形成相似的新闻集,通过K-means算法进行聚集,最终集热点推荐、热词呈现及个性化分析等操作于一体,实现新闻推荐功能。 2.项目运行环境:Python 环境、...

    基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法).zip

    基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法)+数据集和说明.zip 一篇文档的关键词等同于最能表达文档主旨的N个词语,即对于文档来说最重要的词,因此,可以将文本关键词...

    python数据科学教学大纲教案.doc

    内容涵盖python编 程基础、python数据科学生态系统的numpy数值计算、pandas数据预处理与数据分析、m atplotlib数据可视化、使用scikit- learn构建基本数据挖掘模型、python中文文本处理(分词、词频统计、词云)、...

    python中文分词,使用结巴分词对python进行分词(实例讲解)

    2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py ...

    Chinese-word-segmentation:通过Python完成中文分词

    中文分词通过Python完成基于MM(最大匹配)和RMM(反向最大匹配)的中文分词。第0部分说明第1部分类说明步骤1。 (CLASS class_import_words_2_db.py) 将搜狗的单元格词库和现代汉语词典中的单词数据导入数据库“ ...

    matlab屏蔽大段代码-textmining3:适用于Python3的文本挖掘实用程序

    该程序包具有大量精选数据(停用词,常用名,带有词性和词频的英语词典),使用户可以从文档中提取相当复杂的功能。 此程序包不具有任何自然语言处理功能,例如词性标记。 请参阅Python NLTK中的此类功能(还有更多...

    project.rar

    手动计算词频,利用 WordCloud()函数基于词创建词云,这里选择词频最高的 10 个词,同时可以设置词云背景颜色,图片,设置最大显示的字数,字体最大值,设置有多少种随机生成状态,即有多少种配色方案。最后还要...

Global site tag (gtag.js) - Google Analytics