使用方法:
public static void main(String[] args) {
SimpleTreeFilter filter = new SimpleTreeFilter();
filter.addKeyword("禁词1");
filter.addKeyword("禁词2");
filter.addKeyword("其它禁词");
System.out.println(filter.contains("我是合法的"));
System.out.println(filter.contains("我包含禁词1"));
System.out.println(filter.contains("我包含禁词2"));
System.out.println(filter.contains("我包含其它禁词1"));
System.out.println(filter.contains("来个别的吧"));
System.out.println(filter.contains("再见"));
}
输出:
null
禁词1
禁词2
其它禁词
null
null
import java.util.HashMap;
public class SimpleTreeFilter{
public class TreeNode{
public char c;
public HashMap<Character, TreeNode> next;
public boolean isEnd=false;
}
HashMap<Character, TreeNode> head = new HashMap<Character, TreeNode>();
public void addKeyword(String word) {
word=word.toLowerCase();
int len = word.length();
if(len==0){
return;
}
char firstChar = word.charAt(0);
TreeNode node;
if(head.containsKey(firstChar)){
node = head.get(firstChar);
}else{
node = new TreeNode();
node.c=firstChar;
head.put(firstChar, node);
}
for(int i=1;i<len;i++){
char c=word.charAt(i);
if(node.next==null){
node.next = new HashMap<Character, TreeNode>();
}
if(node.next.containsKey(c)){
node = node.next.get(c);
}else{
TreeNode tNode = new TreeNode();
tNode.c=c;
node.next.put(c, tNode);
node = tNode;
}
}
node.isEnd=true;
}
public String contains(String line) {
int len = line.length();
line=line.toLowerCase();
for(int i=0;i<len;i++){
char c=line.charAt(i);
if(head.containsKey(c)){
TreeNode node = head.get(c);
if(node.isEnd==true){
return (c+"").toLowerCase();
}
int j=i+1;
while(j<len){
char cTemp = line.charAt(j);
if(node.next.containsKey(cTemp)){
node = node.next.get(cTemp);
if(node.isEnd==true){
return line.substring(i,j+1).toLowerCase();
}
}else{
break;
}
j++;
}
}
}
return null;
}
}
分享到:
相关推荐
百度违禁词查询工具,过滤掉违规词,再去优化网站文章,能大大提高站群效率
thinkphp5屏蔽词过滤类基于DFA算法,下载直接引入框架即可
高效敏感词过滤JAVA实现(DFA算法) 5000字2ms 节点 + 2进制标识(节省空间/提高查询效率) 附源码、注释,附带专业敏感词库(3396个敏感词) 看得上就拿去用,替换下一两处util方法、改个路径即可 不求什么,...
这是一个我一个做灰色的朋友找人定制的,外面绝对没有 如果查询失败,更新下百度账号Cookie 将百度账号Cookie放入:百度Cookie.txt 内 不用Cookie去爬会拦截 使用教程 1.要查询的关键词放入...
通风空调高效过滤器泄漏测试记录(一)
一个php实现敏感词过滤类,过滤得到禁词,对禁词分批过滤,分批得到禁词树。
介绍一个php实现敏感词过滤类,过滤得到禁词,对禁词分批过滤,分批得到禁词树。
一个简单的中文分词算法,可用于网游脏词过滤、搜索引擎文档解析、自然语言处理等需要中文分词的场合 洋文单词以空格天然分词,相比较而言因为一句中文是由连贯的字组成的,分词就麻烦一些。最困难的情况是对二义性...
一个php过滤非法字符类,参数检查并写日志,提交的参数非法,系统会记录您的本次操作,SQL注入日志
当识别出一个单词后,若线性表或者二叉排序树中没有该单词, 则在适当的位置上添加该单词;若该单词已经被识别,则增加其出现的频率。 (3) 统计结束后,删除出现频率低于五次的单词,并显示该单词和其出现频率。 (4...
java违禁词过滤 违禁词识别,可以对评论的内容进行一个过滤,避免出现违禁词 源码参考,欢迎下载
springBoot-java敏感词语过滤类
php安全过滤类
高效过滤器安装记录文稿.doc
1)提交变量进数据库时,我们必须使用addslashes()进行过滤,像我们的注入问题,一个addslashes()也就搞定了。其实在涉及到变量取值时,intval()函数对字符串的过滤也是个不错的选择。 2)在php.ini中开启magic_...
基于线性表和二叉排序树低频词过滤系统 数据结构 课程设计
将关键词的第1个字作为hashMap的索引,第2个字放到另一个hashMap中,并让第1个字的索引指向这个hashMap 过滤关键字的时候执行的操作都是hashMap.get,所以效率非常高 具体下载java源码查看 在普通双核三星笔记本...
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
如何构造一个简单的USB过滤驱动程序
一个简单的golang布隆过滤器