只要用户可以发言的地方,就可能出现广告或者其他敏感词,因此必须加入敏感词过滤机制来保持站点的”纯洁”。
过滤机制:加入php关键字正则匹配
//$str 为用户数据
function wordFilter($str)
{
/*
获取敏感词列表
敏感词的存储方法:
1:存储在txt文件中(一般的方法)
2:存储在缓存(比较好的方法)
我是存储在memcachd中。
*/
$words = getSensitiveWords();
foreach ($words as $word)
{
$preg_letter = '/^[A-Za-z]+$/';
if (preg_match($preg_letter, $str))
{//匹配中文
$str = strtolower($str);
$pattern_1 = '/([^A-Za-z]+' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word . '\s+)|(\s+' . $word . '[^A-Za-z]+)|(^' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word.'$)/';
//敏感词两边不为空
if (preg_match($pattern_1, $str))
{
$flag = TRUE;
}
$pattern_2 = '/(^' . $word . '\s+)|(\s+' . $word . '\s+)|(\s+' . $word . '$)|(^' . $word . '$)/';
//敏感词两边可以为空格
if (preg_match($pattern_2, $str))
{
$flag = TRUE;
}
}
else
{//匹配英文字符串,大小写不敏感
$pattern = '/\s*' . $word . '\s*/';
if (preg_match($pattern, $str))
{
$flag = TRUE;
}
}
}
}
存在问题:
如果单纯只加入关键字匹配,用户反过滤的方法五花八门,包括中间加入空格或者其他标点符号。
例子:
敏感词:扣扣
用户处理后:
扣 扣
扣,扣
扣@扣
扣1扣
这时候代码的正则匹配就可能匹配不出来。
解决办法:
先对用户数据去除所有的标点符号和一些特殊字符,然后再进行敏感词判断。
代码:
$flag_arr=array('?','!','¥','(',')',':','‘','’','“','”','《','》',',','…','。','、','nbsp','】','【','~');
$content_filter=preg_replace('/\s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$content),ENT_QUOTES,'UTF-8'))));
$content_filter 就是处理后的用户数据,然后再进行 wordFilter($content_filter ) 过滤操作
相关推荐
php敏感词过滤案例,很简单很实用,现在网站好多关键词都是国家禁止的词,收集网络许多资料都不太好,为天下网自己写了一个,
thinkphp5屏蔽词过滤类基于DFA算法,下载直接引入框架即可
介绍一个php实现敏感词过滤类,过滤得到禁词,对禁词分批过滤,分批得到禁词树。
PHP扩展,专门用于敏感词检测。速度快,能返回敏感词的偏移量和内存空间。只支持linux系统,PHP5.2测试通过。但是需要注意字符集。详细使用过程可参考:...
php做的敏感词过滤,功能很强大喔!神马敏感词都得过滤掉,一切讲究的是河蟹!吼吼
一个php实现敏感词过滤类,过滤得到禁词,对禁词分批过滤,分批得到禁词树。
PHP 过滤敏感词 工具。 过滤敏感词工具 敏感词 过滤 过滤敏感词
PHP基于确定有穷自动机(DFA)敏感词过滤器,支持 Laravel 框架。
主要介绍了PHP实现的敏感词过滤方法,涉及php字符串正则匹配、分割、转换等相关操作技巧,需要的朋友可以参考下
本类库的敏感词替换算法,效率比str_replace高4倍(附6仟个敏感词),这个类库是没有学习过Trie树的时候写的,之后我接触了AC算法,我的算法和AC是类似的结构和逻辑,都是利用树,空间换时间,对搜索/替换海量数据...
}本类库的敏感词替换算法,效率比str_replace高4倍(附6仟个敏感词),这个类库是没有学习过Trie树的时候写的,之后我接触了AC算法,我的算法和AC是类似的结构和逻辑,都是利用树,空间换时间,对搜索/替换海量...
软件开发设计:应用软件开发、系统软件开发、移动应用开发、网站开发Node.js、C++、Java、python、web、C#等语言的项目开发与学习资料 硬件与设备:单片机、EDA、proteus、RTOS、包括计算机硬件、服务器、网络设备、...
PHP基于确定有穷自动机(DFA)敏感词过滤器,支持 Laravel 框架。 安装 1. 利用composer安装包 $ composer require snstvwd/filter 2. 在config/app.php 里面添加: 'providers' => [ . . . Snstvwd\Filter\...
过滤敏感词,解决过滤敏感词,如论坛上发帖那种的敏感词
php扩展:trie_filter 过滤敏感词。1.生成敏感词文件,2.加载使用敏感词库,3.查找敏感词。可以循环查找替换,最后输出替换后的文本
PHP关键词过滤扩展trie_filter, 修复原版返回length错误。用法可以参考原版说明。
}主要使用了 int substr_count ( string haystack, string needle [, int offset [, int length]] ) 这个方法,这个方法遍历待测的字符串$str中有没有$allergicWord数组中所包含的敏感词:
包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】...
过滤敏感词汇的laravel包,使用DFA算法