`
文章列表
最近在做 hadoop+hive 相关的项目时,中间好几次被搜索项目那边叫去 写附加搜索功能(添加其他搜索规则,用Lucene实现),总是觉得那边需求一变或增加,就要投入精力去重新添加代码(其实很多都是类似)。 在经历过后,就一 ...
最近由于项目需要,在这个周末简单学习了下Python,听网上说google员工学习python通常几天搞定。 如果你熟悉其他语言,的确可以这么说,边学边用才是最好的实践道理,否则学了些永远用不到的也是得不偿失啊!   这里介绍2本书:   <a byte of python>  英文阅读地址:http://www.ibiblio.org/swaroopch/byteofpython/read/ 中文翻译地址:http://blog.csdn.net/i_nbfa/article/details/5870676     <dive into python> ...
最近工作中涉及到新词的识别,在漫长的程序运行期间,记录下相关心得。这里为较原始的新词识别算法,起到一个了解的作用。   新词: 指未在已经训练完的词库或语料库中大量出现的词称为新词(很多情况下也成为未登录词)。     目前新词识别的技术主要包括3个方向:1. 基于规则;2. 基于统计概率;3. 规则和统计相结合;   1. 基于统计 基于统计的新词识别技术包括 {词之间互信息,词出现频率} 1.1 互信息 互信息之统计模型中衡量2个随机变量X,Y之间的关联程度,而在新词的识别中则特指相邻2个词之间的关联程度。 MI(X,Y)=log2(p(X,Y)/p(X)* ...
人工神经网络作为智能算法的一种,一直以来在实践方面取得了一定的成就,比如数字识别、信号处理、数据预测、内容分类等等,但是在理论方面还是缺乏相关的严格数学分析与证明。   至于神经网络的相关算法分析将在以后的文章中介绍,这里先介绍下神经网络的分类原理,不足之处请大家指教,相互进步。   神经网络为什么能分类?又是如何分类的?以下是本人在相关研究中阅读到一些理解   图 1.1 3层前馈人工神经网络拓扑图   其中x1,x2,...xn为网络输入,y1,y2,...ym为网络输出。网络的输入输出变换关系如下: (1) ...
在通常情况下,搜索提示一般需要用到前缀查询,即:匹配以XXX开头的语句内容。也可以看作正则表达式的XXX* 如查询:中。 则提示应该显示:中国、中央、中间。。。等等。   Lucene中的PrefixQuery即满足此要求。但是在建索引的时候需要注意最好不要分词,否则搜索有问题。   应该改为:field = new Field("FIELD",indexString,Store.YES,Index.NOT_ANALYZED);   且发现一个很重要的问题:PrefixQuery搜索出来的分数都为1.0f。 可能是考虑到速度的原因,为此不考虑分数。   ...
Global site tag (gtag.js) - Google Analytics