论坛首页 招聘求职论坛

设计一个敏感词过滤架构

浏览 11150 次
精华帖 (0) :: 良好帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-03-28  
在一家做B2B的公司面试时遇到一个这样的问题,可是我觉得这个跟系统架构设计关系不大,而跟算法的优劣有关。可能是我的功力太浅薄吧。希望群里的大师们能谈谈自己的看法和思路。

个人的想法是提供一个敏感词过滤服务,服务采用同步(请求响应)的方式接收待过滤的文字,服务内部使用多线程搭配高性能的算法对请求的内容进行处理,并返回处理后的文字。(是不是有点太简单了? )

真心的想听听大家的想法。
   发表时间:2012-03-28  
怎么都没有人发言呢?
难倒问题太简单了?
0 请登录后投票
   发表时间:2012-03-28  
我也想听听。多线程+高性能算法的 具体实现。。
0 请登录后投票
   发表时间:2012-03-28  
wangrenzhu2012 写道
我也想听听。多线程+高性能算法的 具体实现。。


据我所了解敏感词过滤大多使用DFA算法,然后使用线程池来管理任务线程。
不过问题是要求设计架构,这个不知道怎么回答。。。
0 请登录后投票
   发表时间:2012-03-29  
没什么复杂的,比较简单有效的做法直接搞一个中文分词器把词库改成你需要的敏感词库就可以了
0 请登录后投票
   发表时间:2012-03-29  
zha_zi 写道
没什么复杂的,比较简单有效的做法直接搞一个中文分词器把词库改成你需要的敏感词库就可以了


这个是试题的最后一题,之前的题目都有一定的难度,而且是要求设计架构的,所以我觉得要当做一个架构题来回答。
0 请登录后投票
   发表时间:2012-03-29  
像这种字段型的可以定制相关的域,域里面有屏蔽类型,具体屏蔽的域名是啥子,我们搞的就是这种。
0 请登录后投票
   发表时间:2012-03-29  
BruceXX 写道
像这种字段型的可以定制相关的域,域里面有屏蔽类型,具体屏蔽的域名是啥子,我们搞的就是这种。


你说的域,是不是就是将敏感词分类啊?不太懂唉。能具体的说说么?
0 请登录后投票
   发表时间:2012-03-29  
经鉴定,此公司是焦点。
0 请登录后投票
   发表时间:2012-03-29  
jerry1985 写道
在一家做B2B的公司面试时遇到一个这样的问题,可是我觉得这个跟系统架构设计关系不大,而跟算法的优劣有关。可能是我的功力太浅薄吧。希望群里的大师们能谈谈自己的看法和思路。

个人的想法是提供一个敏感词过滤服务,服务采用同步(请求响应)的方式接收待过滤的文字,服务内部使用多线程搭配高性能的算法对请求的内容进行处理,并返回处理后的文字。(是不是有点太简单了? )

真心的想听听大家的想法。

问题是啥啊?
0 请登录后投票
论坛首页 招聘求职版

跳转论坛:
Global site tag (gtag.js) - Google Analytics