中文分词工具之基于字标注法的分词

博客分类：

人工智能，机器学习

基于字标注法的分词中文分词字标注通常有2-tag,4-tag和6-tag这几种方法，其中4-tag方法最为常用。标注集是依据汉字（其中也有少量的非汉字字符）在汉语词中的位置设计的。 1. 2-tag法 2-tag是一种最简单的标注方法,标注集合为{B,I}，其将词首标记设计为B，而将词的其他位置标记设计为I。例如词语“重庆”的标注结果是“重/B 庆/I”，而“大学生”的标注结果为“大/B 学

2019-06-26 10:30
浏览 319
评论(0)
分类:编程语言

中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块，不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性，句法树等模块的效果，当然分词只是一个工具，场景不同，要求也不同。在人机自然语言交互中，成熟的中文分词算法能够达到更好的自然语言处理效果，帮助计算机理解复杂的中文语言。基于词典分词算法基于词典分词算法，也称为字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已经建立好的"充分大的"词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分 ...

2019-06-24 10:29
浏览 353
评论(0)
分类:编程语言

Ansj与hanlp分词工具对比

博客分类：

人工智能，机器学习

一、Ansj 1、利用DicAnalysis可以自定义词库： 2、但是自定义词库存在局限性，导致有些情况无效：比如：“不好用“的正常分词结果：“不好，用”。（1）当自定义词库”好用“时，词库无效，分词结果不变。 � ...

2019-06-21 13:52
浏览 319
评论(0)
分类:编程语言

python使用jieba实现中文文档分词和去停用词

博客分类：

大数据，hadoop

python

分词工具的选择：　　现在对于中文分词，分词工具有很多种，比如说：jieba分词、thulac、SnowNLP等。在这篇文档中，笔者使用的jieba分词，并且基于python3环境，选择jieba分词的理由是其比较简单易学，容易上手，并且分词效果还很不错。分词前的准备：待分词的中文文档存放分词之后的结果文档中文停用词文档（用于去停用词，在网上可以找到很多）分词之后的结果呈现：图1 去停用词和分词前的中文文档图

2019-06-19 10:26
浏览 599
评论(0)
分类:编程语言

Hanlp配置自定义词典遇到的问题与解决方法

博客分类：

人工智能，机器学习
大数据，hadoop

本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题，同时针对这些问题，也提供另一些解决的方案以及思路。这里分享给大家学习参考。要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。要注意的点是: 　　1.root根路径的配置: 　　　　hanlp.properties中配置如下: 　　　　　　#本配置文件中的路径的根目录，根目录+其他路径=完整路径（支持相对路径）

2019-06-17 10:03
浏览 444
评论(0)
分类:编程语言

HanLP-分类模块的分词器介绍

博客分类：

人工智能，机器学习

最近发现一个很勤快的大神在分享他的一些实操经验，看了一些他自己关于hanlp方面的文章，写的挺好的！转载过来分享给大家！以下为分享原文（无意义的内容已经做了删除）如下图所示，HanLP的分类模块中单独封装了适用分类的分词器，当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都在tokenizer包中。包括： BigramTokenizer这是一个2gram分词器，也就是把连续的2字认为是一个词 BlankTokenizer这是一个空白符分词器，以文本中的空白符作为词语间隔 HanLPTokenizer这是一个实词分词器，也就是只保留实词，它是分类模块的默认 ...

2019-06-14 10:42
浏览 302
评论(0)
分类:编程语言

elasticsearch教程--中文分词器作用和使用

博客分类：

人工智能，机器学习

概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备 ·全新最小化安装的centos 7.5 ·elasticsearch 6.4.0 认识中文分词器在博文elasticsearch分词器中提到elasticsearch能够快 ...

2019-06-12 10:10
浏览 613
评论(0)
分类:编程语言

HanLP-最短路径分词

博客分类：

大数据，hadoop

今天介绍的内容是最短路径分词。最近换回了thinkpad x1，原因是mac的13.3寸的屏幕看代码实在是不方便，也可能是人老了吧，^_^。等把HanLP词法分析介绍结束后，还是会换回macbook pro的。个人有强迫症，只要看或写Java或C/C++代码� ...

2019-06-05 11:06
浏览 308
评论(0)
分类:编程语言

史上最全中文分词工具整理

博客分类：

大数据，hadoop

一．中文分词二．准确率评测： THULAC：与代表性分词软件的性能对比我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境，根据第二届国际汉语分词测评（The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准，对不同软件进行了速度和准确率测试。在第二届国际汉语分词测评中，共有四家单位提供的测试语料(Academia Sinica、 City Universi ...

2019-06-03 10:44
浏览 448
评论(0)
分类:编程语言

NLP自然语言处理中英文分词工具集锦与基本使用介绍

博客分类：

大数据，hadoop

一、中文分词工具（1）Jieba （2）snowNLP分词工具（3）thulac分词工具

2019-05-31 11:23
浏览 732
评论(0)
分类:编程语言

部分常用分词工具使用整理

博客分类：

大数据，hadoop

python

以下分词工具均能在Python环境中直接调用（排名不分先后）。 1、jieba（结巴分词）免费使用 2、HanLP（汉语言处理包）免费使用 3、SnowNLP（中文的类库）免费使用 4、FoolNLTK（中文处理工具包）免费使用 5、Jiagu（甲骨NLP）免费使用 6、pyltp（哈工大语言云）商用需要付费

2019-05-29 09:51
浏览 422
评论(0)
分类:互联网

HanLP-实词分词器详解

博客分类：

人工智能，机器学习
大数据，hadoop

在进行文本分类（非情感分类）时，我们经常只保留实词（名、动、形）等词，为了文本分类的分词方便，HanLP专门提供了实词分词器类NotionalTokenizer，同时在分类数据集加载处理时，默认使用了NotionalTokenizer分词器。在HanLPJava版代码库中可以查看下边的文件中的函数 1、AbstractDataSet.java文件中的AbstractDataSet方法 2、HanLPTokenizer.java文件中的segment方法 3、NotionalTokenizer.java文件中的segment方法

2019-05-27 10:20
浏览 304
评论(0)
分类:编程语言

Eclipse myeclipse下配置HanLP的教程

博客分类：

人工智能，机器学习

一、说明博主的配置 1：window10 2：myeclipse 3：jdk1.8 备注：文章分享自贾继康的博客，博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了，也比较推荐使用最新的这个版本！二、资源获取 1、hanlp jar包获取：可以github上下载。本文中使用的是hanlp-1.6.8.zip版本 2、数据包获取三、配置说明 1、配置jar包获取hanlp-1.6.8.zip中的jar包添加到eclipse项目中 A：在自己的项目(java_natio ...

2019-05-24 10:30
浏览 331
评论(0)
分类:编程语言

HanLP-停用词表的使用示例

博客分类：

人工智能，机器学习
hanlp

hanlp

停用词表的修改停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中，CoreStopWordDictionary.apply方法支持去除停用词。如果需要修改停用词表，则直接编辑文件“stopwords.txt”，之后删除路径下的“stopwords.txt.bin”，运行CoreStopWordDictionary.apply后即可自动生效。有关验证的方法见“验证是否生效”小节。自定义词语过滤方法用户可以通过编写“pyhanlp\static”路径下的“MyFilter.java”文件设置自己的词语过滤方法。应 ...

2019-05-22 11:20
浏览 1057
评论(0)
分类:编程语言

自然语言处理工具hanlp定制用户词条

博客分类：

人工智能，机器学习

词法分析

自然语言处理工具hanlp定制用户词条作者：baiziyu 关于hanlp的文章已经分享过很多，似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章，待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu 分享的一篇文章，感兴趣的可以在知乎上关注下他的专栏，写的还是挺好的！以下为文章的主要内容：自定义词表的修改自定义词表在“pyhanlp\static\data\dictionary\custom”路径下的“CustomDictionary.txt”文件中，HanLP.segment支持自定义此词表。如果需要修改自定义词表，则直接编辑文件“Custo ...

2019-05-20 10:06
浏览 346
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文分词工具之基于字标注法的分词

自然语言处理工具中的中文分词器介绍

Ansj与hanlp分词工具对比

python使用jieba实现中文文档分词和去停用词

Hanlp配置自定义词典遇到的问题与解决方法

HanLP-分类模块的分词器介绍

elasticsearch教程--中文分词器作用和使用

HanLP-最短路径分词

史上最全中文分词工具整理

NLP自然语言处理中英文分词工具集锦与基本使用介绍

部分常用分词工具使用整理

HanLP-实词分词器详解

Eclipse myeclipse下配置HanLP的教程

HanLP-停用词表的使用示例

自然语言处理工具hanlp定制用户词条

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>