数据分析中的分词 - - ITeye博客

`

囧囧有神

浏览: 204628 次
性别:
来自: 杭州

最近访客更多访客>>

王子很想睡

lichuhui

mingtingjian

henri001

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

WHW1984：你那个疑惑3，不知道是否现在已经搞懂。是用3个参数：clie ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
WHW1984： "是客户端产生一个预主密码(premaster)，然 ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
windshome：回答博主的一个问题：客户端直接生成一个会话密钥，有可能存在随机 ...
深入研究SSL【第二章 part-1】-SSL握手协议的研究
Army： 28不是位，是28字节
深入研究SSL【第二章 part-1】-SSL握手协议的研究
hantangtieji：期待楼主把这个系列写完。
深入研究SSL【第二章 part-2】-SSL握手协议的研究

数据分析中的分词

博客分类：

数据挖掘&机器学习

阅读更多

数据分析的其中一个步骤是对输入内容分词，内容中可能含有垃圾词或

无意义词或分词分错的，因此用停用词词典和几个正则表达式进行过滤，

之前处理的量级大约是10G这个量级，处理速度挺好。

这次增加很多数据源，处理量级上升到1T级别，这些分析处理的速度明显感觉很慢，

通过性能分析发现用正则表达式来match，判断是否是垃圾词的方式性能比较差，

如果去除这些正则，处理速度能提高一倍，试着把各个正则转换成字符串查找，

比如

\\d+(\\.\\d)?\\d*([\u4e00-\u9fa5]*[a-zA-Z]*)

用来匹配数字+中文的词，比如0.99元 5公斤等，这些逻辑简化成词包含.或包含数字和中文就认为是垃圾词，

处理精度几乎没下降，但是速度相当于去掉正则。

分享到：

hadoop JOB的性能优化实践 | tf-idf的问题

2012-12-04 15:32
浏览 1432
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C++中文分词源码，分词的方法: 本文主要探讨分词的速度问题，通过实验对比和理论分析，说明我们所提出的算法是有效的。目前人们所提出的分词方法，在考虑效率问题时，通常在词典的组织方面进行某种调整，以适应相应的算法，如最大匹配法、最小...

地摊经济数据集分析 – 分词+聚类+词云: 地摊经济数据集分析 – 分词+聚类+词云

基于python的中文分词程序: 使用Python编写的中文分词软件,功能多样,可以自己更换字典,也有机器学习,检测中文人名,检测高频词语等多种功能,速度适中,准确率可观.

使用HMM模型实现的中文分词程序: 该模型使用了HMM(隐马尔可夫)模型建立中文分词程序，使用了词性标注的思想进行中文分词，更加适合自然语言处理方向的新手进行学习！

基于逆向匹配的中文分词: 基于逆向匹配的中文分词算法实现，产生词典和测试数据，分词后具有结果分析功能，计算精确度，召回率，F值

python数据分析实验五商品评价分析: 对某宝网站中某卫衣的用户评价进行简单的分析，并使用词云渲染一些关键词；用户评价分析主要包括以下操作： (1)读取“商品评价信息.csv”文件,删除重复数据。 (2)使用jieba分词工具对评价文本进行分词。 (3)删除分词...

基于深度学习的中文分词方法研究.pdf: 基于深度学习的中文分词方法研究.pdf

HHM实战：使用HMM进行中文分词1: 通过以上的序列标注，那么我们可以得到这个HMM模型：状态空间为{B,E,M,S}每个字就是模型中的观测，所以观测空间为语料中的所有中文字两个空间完了，还需要三个

金融词条 25万分词处理: 金融词条 25万分词处理，金融数据分析，金融词条 25万分词处理，金融数据分析，结巴分词

Java中文分词生成词云GUI: java中文分词，协同过滤算法词频分析，javaGUI界面初步，生成java数据词云

Python对爬取微博的评论进行jieba分词和词频统计: 使用Python，对爬取微博的评论，进行jieba分词，统计词频，修改路径即可。

Python数据分析与应用题库.docx: Python数据分析与应用题库 Python数据分析与应用题库下列nltk模块中，可以对句子实现分词操作的是（）。 [单选题] * A、nltk.corpus B、nltk.tokenize(正确答案) C、nltk.stem D、nltk.tag 答案解析：暂无解析下列...

Python数据分析案例对京东商城口红的分析与绘图: 接着上一篇文章,这里对爬取到的数据进行简单的数据分析开发环境:jupyter 导入依赖的包 %matplotlib inline # 数据处理 import pandas as pd import numpy as np # 绘图 import matplotlib.pyplot as plt # 分词 ...

基于CRFs 的中文分词和短文本分类技术.pdf: 本文的工作主要包括两部分：第一部分，我们借用了文本分类领域的特征选择算法对中文分词中的特征进行分析。分析结果表明，特征选择算法在中文分词的任务中也是适用的。在中文分词领域，基于字标注的方法得到广泛应用...

商品评论情感分析之分词工具用户自定义词典: NLPIR分词工具由中科院开发，其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。

论文研究-Deep Web下基于中文分词的聚类算法.pdf: 随着Deep Web飞速的发展，使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词，利用查询接口得到检索页面，对检索页面中的中文信息进行抽取...

人工智能-项目实践-数据预处理-基于bert的中文自然语言处理工具，包括情感分析、中文分词、词性标注、以及命名实体识别功能: 包括情感分析、中文分词、词性标注、以及命名实体识别功能提供了训练接口，通过指定输入输出以及谷歌提供的下载好的预训练模型即可进行自己的模型的训练，训练任务有task_name参数决定，目前提供的任务主要包括句子...

Python数据分析与可视化项目电商类-京东评论数据情感分析-约150行（分词、关键词提取、情感分析）.zip: Python数据分析与可视化项目包括项目源码（含详细说明分析）、数据文件、注意不含视频，可作为数据分析练手项目。或用于数据分析报告、毕业设计素材等。

Python实战教程：数据分析: 内容概要：基于Python对微信进行数据分析，这里选择的维度主要有：性别、头像、签名、位置，主要采用图表和词云两种形式来呈现结果，其中对文本类信息会采用词频分析和情感分析两种方法。常言道：工欲善其事，必先利...

79套Python数据分析可视化预测项目例子实例源码代码实战案例带数据集.zip: 79套Python数据分析可视化预测项目例子实例源码代码实战案例带数据集，包含（简略）：案例-50个Pyecharts可视化例子电商-超市销售数据分析与报表-约200行(数据运视分析) 电商-广告投放效果分析-约250行(KMeans聚类...

Global site tag (gtag.js) - Google Analytics