这是ik的配置文件 在配置远程扩展字典写上下面方法的接口(要注意能调取到这个方法) 把停止词典注释掉
---------------------------------------------------------------------------
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">custom/ext_stopword.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">location</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<entry key="remote_ext_stopwords">http://xxx.com/xxx.dic</entry>
</properties>
---------------------------------------------------------------------------
以下是java代码部分
---------------------------------------------------------------------------
@GET
@Path("loadGJCK")
@Produces(MediaType.APPLICATION_OCTET_STREAM)
@ApiOperation(value = "词库")
public String loadGJCK(@Context HttpServletRequest request,@Context HttpServletResponse response){
String result = "";
try {
StringBuilder sb = new StringBuilder();
String[] keywords = keywordService.selectKeyWord(10l);//获取所有分词,这里可以改进使用缓存等。
String eTag = request.getHeader("If-None-Match");
Long modified= request.getDateHeader("If-Modified-Since");
//设置头
if(null == modified || -1 == modified) {
//如果没有,则使用当前时间
modified = System.currentTimeMillis();
}
// 设置头信息。
String oldEtag = keywords.length+ "";
response.setDateHeader("Last-Modified", Long.valueOf(modified));
response.setHeader("ETags", keywords.length + "");
if(!oldEtag.equals(eTag)) {
//拼装结果
for(String tempWord : keywords) {
if(!StringUtils.isEmpty(tempWord)){
//分词之间以换行符连接
if(StringUtils.isNotEmpty(sb.toString())) {
sb.append("\r\n");
}
sb.append(tempWord);
}
}
//result = new String(result.getBytes("ISO8859-1"), "UTF-8");
result = sb.toString();
//更新时间
response.setDateHeader("Last-Modified", System.currentTimeMillis());
}
}catch (Exception e){
e.printStackTrace();
}finally {
System.out.println(result);
return result;
}
}
然后这个词库就可以用啦!
分享到:
相关推荐
Ikanalyzer分词器动态自定义词库的方法.doc
ik中文分词词库35万中文分词词库(含电商)
配置词库将custom 文件放入这个文件夹内修改 ik 的配置文件先备份一个配置cp IKAnalyzer.cfg.xml IKAnalyzer备份.cfg.x
基于ik动态词库分词实现--无需重启服务
ik中文分词词库,包含不低于20万词,用于分词,
IK分词常用停止词库约1500个 elasticsearch analysis ik分词器常用停止词库
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf
近期整理的IKAnalyzer中文停用词列表,大约有2000多个词,希望可以帮到大家,下载希望给个好评,谢谢
支持停止词,扩展词热更新,将分析器自定义为ik_smart_custom和ik_max_word_custom了,使用idea导入项目,mvn clear complile package 打包完成,使用release中的zip文件部署,记得修改db.properties中的数据库连接...
0.常用热词词库的配置方式0.1 采用IK 内置词库优点:部署方便,不用额外指定其他词库位置缺点:分词单一化,不能指定想分词的词条0.2 IK 外置静态词库优点
elasticsearch - ik分词库
solr 中文查询分词器,把一串字符分作多个词语进行查询
中文分词词库,中文词库20万(19万6千),自己整理的,用于做中文分词,根据一段话,或者一篇文章进行拆词都可以使用的上。
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 ... 【项目质量】: 所有源码都经过严格测试,...
Elastic Search+ik分词器的扩展词库,可以用来扩展开发自定义词库内容。从而增加商品的搜索准确度。
2020年的所有搜狗词库,已经全部处理为txt格式的纯汉字。可以直接提供给IK使用,如果有编码问题,重新保存为UTF-8
中文分词库 IKAnalyzer