word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。
word1.3新增了大量功能,如:词频统计、refine、词性标注、同义标注、反义标注、拼音标注等,同时,新增了10种文本相似度算法,还新增了两种分词算法:最大Ngram分值算法和最少词数算法,分词速度也有了很大提升,还有很多其他的大大小小的优化,最后还支持当前最新的lucene5.2.1、solr5.2.1和elasticsearch2.0.0-beta1。
更多细节请查看:word分词主页
word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估
相关推荐
Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名...
java分布式事务demo
Java分布式面试题汇总,2022年最新,143页,祝您斩获高薪offer!Java分布式面试题汇总,2022年最新,143页,祝您斩获高薪offer!Java分布式面试题汇总,2022年最新,143页,祝您斩获高薪offer!Java分布式面试题汇总,...
java wrapper 分布式应用组件、可以把java程序以服务的形式分布于不同的服务器
java分布式程序设计 java分布式程序设计 java分布式程序设计java分布式程序设计java分布式程序设计java分布式程序设计java分布式程序设计java分布式程序设计java分布式程序设计java分布式程序设计
java 分布式系统架构源码,带数据库执行脚本,可直接导入,部署运行
基于java的开发源码-Redkale 1.9.4 Java 分布式微服务框架.zip 基于java的开发源码-Redkale 1.9.4 Java 分布式微服务框架.zip 基于java的开发源码-Redkale 1.9.4 Java 分布式微服务框架.zip 基于java的开发源码-...
Java 分布式应用程序设计代码 对Java 分布式应用程序进行了解
Java 分布式面试
本人收集整理,是一套很好的编写JAVA分布式应用软件开发的丛书,里面有很多JAVA分布式应用的例子,一套不错的资料哟!
JAVA分布式程序设计
java 分布式 代码生成器 唯一ID
Java分布式应用学习笔记
JAVA分布式程序设计.pdf
Java分布式学习笔记01分布式Java应用
Java分布式ETL框架
廖师兄亲授-Java分布式系统解决方案,课程包含分布式ID、分布式Session、分布式任务调度、分布式限流、分库分表、分布式事务六大专题,案例涵盖用户、报表、秒杀、订单等经典场景,企业常用分布式实战案例&解决方案...
基于java的开发源码-OSGi 分布式通讯组件 R-OSGi.zip 基于java的开发源码-OSGi 分布式通讯组件 R-OSGi.zip 基于java的开发源码-OSGi 分布式通讯组件 R-OSGi.zip 基于java的开发源码-OSGi 分布式通讯组件 R-OSGi.zip ...
java分布式大纲