1. 整体思路
第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html
3. 下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。
图1
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
相关推荐
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
中文自动文摘,基于jieba分词,全Java代码。给定文本输出自定义长度的文摘。
Java 实现去除中文文本的停用词-附件资源
java程序代码,处理停用词清洗,代码中源文件是dat格式,但是读取方法与txt类型无异
Java,LDA(Latent Dirichlet Allocation)源代码,可以实现分词、去除停用词功能。
es5.3.2热词、停用词、同义词词典,包括插件压缩包,插件源码,远程词典服务端示例,配置说明等
java毕业设计——文本编辑器.zip java毕业设计——文本编辑器.zip java毕业设计——文本编辑器.zip java毕业设计——文本编辑器.zip java毕业设计——文本编辑器.zip java毕业设计——文本编辑器.zip java毕业设计...
java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java文本编辑器java...
java 代码实现的网络新闻文本自动分类,采用朴素贝叶斯和支持向量机两种方法实现!
该程序是一个java的中文汉字字频统计,从诸如txt文件中读取语料,然后生成一个前100个高频汉字的字频统计结果的txt文件,并且还会生成前100、200、600、2000、等汉字的字频和的另一个txt文件。该程序是借用treeMap来...
JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA文本编辑器 JAVA...
java可以读取各种文本文档中的内容,也可以操作文本文档(word,excel,pdf,txt等格式的文档)
java语言编写,用于文本切分,可按段落或固定长度
java 中文字转为英文java 中文字转为英文java 中文字转为英文
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器JAVA毕业设计文本编辑器...
第一步:引入Jsoup和lang和lang3的依赖: ...lang和lang3这两个包里有转换所需的工具类 org.jsoup jsoup 1.11.3 commons-lang commons-lang 2.6 org.apache.commons ...import org.apache.commons.lang....
Java编写的k-means文本聚类算法,lib文件中有IK-analysis的jar包,需要自己先导入到工程中,准确率能达到90%多,用于学习机器学习,可以运行