落叶

浏览: 9335 次
性别:
来自: 杭州

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene 搜索简化开发感想

博客分类：

Lucene

最近在做 hadoop+hive 相关的项目时，中间好几次被搜索项目那边叫去写附加搜索功能（添加其他搜索规则，用Lucene实现），总是觉得那边需求一变或增加，就要投入精力去重新添加代码（其实很多都是类似）。在经历过后，就一 ...

2011-08-26 14:48
浏览 1169
评论(0)
分类:互联网

最近由于项目需要，在这个周末简单学习了下Python，听网上说google员工学习python通常几天搞定。如果你熟悉其他语言，的确可以这么说，边学边用才是最好的实践道理，否则学了些永远用不到的也是得不偿失啊！这里介绍2本书： <a byte of python> 英文阅读地址：http://www.ibiblio.org/swaroopch/byteofpython/read/ 中文翻译地址：http://blog.csdn.net/i_nbfa/article/details/5870676 <dive into python> ...

2011-08-21 16:48
浏览 1120
评论(0)
分类:互联网

简单的新词识别

博客分类：

算法
NPL

最近工作中涉及到新词的识别，在漫长的程序运行期间，记录下相关心得。这里为较原始的新词识别算法，起到一个了解的作用。新词：指未在已经训练完的词库或语料库中大量出现的词称为新词（很多情况下也成为未登录词）。目前新词识别的技术主要包括3个方向：1. 基于规则；2. 基于统计概率；3. 规则和统计相结合； 1. 基于统计基于统计的新词识别技术包括 {词之间互信息，词出现频率} 1.1 互信息互信息之统计模型中衡量2个随机变量X,Y之间的关联程度，而在新词的识别中则特指相邻2个词之间的关联程度。 MI(X，Y)=log2(p(X，Y)/p(X)* ...

2011-07-26 15:40
浏览 4121
评论(0)
分类:互联网

神经网络的分类分析

算法神经网络 NNs 分类

人工神经网络作为智能算法的一种，一直以来在实践方面取得了一定的成就，比如数字识别、信号处理、数据预测、内容分类等等，但是在理论方面还是缺乏相关的严格数学分析与证明。至于神经网络的相关算法分析将在以后的文章中介绍，这里先介绍下神经网络的分类原理，不足之处请大家指教，相互进步。神经网络为什么能分类？又是如何分类的？以下是本人在相关研究中阅读到一些理解图 1.1 3层前馈人工神经网络拓扑图其中x1,x2,...xn为网络输入，y1,y2,...ym为网络输出。网络的输入输出变换关系如下：（1） ...

2011-03-16 22:50
浏览 2039
评论(0)
分类:编程语言

Lucene PrefixQuery

lucene 正则表达式

在通常情况下，搜索提示一般需要用到前缀查询，即：匹配以XXX开头的语句内容。也可以看作正则表达式的XXX* 如查询：中。则提示应该显示：中国、中央、中间。。。等等。 Lucene中的PrefixQuery即满足此要求。但是在建索引的时候需要注意最好不要分词，否则搜索有问题。应该改为：field = new Field("FIELD",indexString,Store.YES,Index.NOT_ANALYZED); 且发现一个很重要的问题：PrefixQuery搜索出来的分数都为1.0f。可能是考虑到速度的原因，为此不考虑分数。 ...

2011-03-04 11:13
浏览 885
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene 搜索简化开发感想

Python 简洁学习

简单的新词识别

神经网络的分类分析

Lucene PrefixQuery

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene 搜索 简化开发 感想

Python 简洁学习

简单的新词识别

神经网络的分类分析

Lucene PrefixQuery

最近访客更多访客>>

Lucene 搜索简化开发感想