相关技术及概念:
lucene: 基入JAVA的开源搜索引擎
Nutch
Heritrix:爬虫框架,是IA的开放源代码,可扩展的,基于整个Web的归档网络爬虫工程
compass:一流的开放源码JAVA搜索引擎框架
Solr:是一个基于Lucene java库的企业级搜索服务器
IKAnalyzer:为lucene定做的中文分词组件
jspider:顾名思义,是一个用Java开发的爬虫。
htmlparser:是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。
Solr是一个基于Lucene java库的企业级搜索服务器,包含XML/HTTP,JSON API, 高亮查询结果,faceted search(不知道该如何翻译,片段式搜索),缓存,复制还有一个WEB管理界面。Solr运行在Servlet容器中。所以Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展
分享到:
相关推荐
搜索引擎-搜索引擎有关排序算法研究.pdf
梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究...
关于搜索引擎研究优化的相关论文,大部分知网上得来
对国内的搜索引擎相关图书进行了汇总,包括《自己动手写爬虫》、《解密搜索引擎》、《Lucene搜索引擎开发权威经典》、《Lucene in Action》
该资源主要是结合我的博客 搜索引擎和知识图谱那些事 (上).基础篇的相关引用资料,博客地址:http://blog.csdn.net/eastmount/article/details/46874155 主要包括: 1.搜索引擎主要参考张俊林的书籍《这就是搜索...
搜索引擎键字获取工具 微流搜索引擎相关关键字获取工具
《走进搜索引擎》由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解...《走进搜索引擎》是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。
使用C sharp开发搜索引擎 C#搜索引擎开发实战 28-相关度打分(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 29-搜索界面(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 30-AJAX搜索界面...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 28-相关度打分(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 29-搜索界面(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 30-AJAX搜索界面...
搜索引擎--李晓明
搜索引擎营销大学考试答案 索引擎营销:英文Search Engine Marketing,我们通常简称为“SEM”。就是根据用户使用搜索引擎的方式利用用户检索信息的机会尽可能将营销信息传递给目标用户。 SEO是由英文Search Engine ...
2 搜索引擎相关技术介绍 2.1 Python爬虫技术 2.1.1 python 2.1.2 爬虫概述 2.2 结巴分词 2.3 SPIMI构建索引算法 2.4 计算两两新闻之间余弦相似度 2.5 BM25公式进行打分排序 2.5.1 检索概率模型BM25公式 ...
搜索引擎相关技术介绍
本资源为一份详尽的全文搜索引擎相关内容的文档,全面介绍了全文搜索引擎的含义、工作流程、技术原理、特点与优势以及多个应用场景。文档从基本概念入手,详细阐述了全文搜索引擎如何通过爬取互联网信息、建立网页...
这是几篇关于中文搜索引擎的中文论文,希望对大家有一定的帮助,其中有两篇硕士论文。
搜索引擎的开发原理,看看会有帮助的,机会不容错过,赶快来下载吧!
18_总结一下分布式搜索引擎相关问题的面试技巧
我们要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的。 我们按照上、中、下...
该资源为搜索引擎原理的pdf资料,能帮助读者了解搜索引擎的基本原理。