`
阅读更多

什么是垂直搜索引擎?

       垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。
        与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位,这个结构化数据可称为记录。然后,再将这些数据(记录信息)进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。很显然的,这个过程很像传统的数据库检索。但是,传统的数据库检索,是基于字符串匹配的,没有相关性排序。当然,传统数据检索,也有自己的优势,支持复杂的表连接操作。垂直搜索引擎在这一点上是比较弱的。可以说,垂直搜索引擎是基于现实需求下的通用搜索和数据库检索相互折中的方案。

垂直搜索引擎的一般流程:
       定向抓取 ==> 网页信息抽取 ==> 二次处理和分词 ==>索引和检索 ==> 相关性排序

垂直搜索特点:
    (1)垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
        比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点;
    (2)垂直搜索引擎抓取的数据倾向于结构化数据和元数据:
        比如:我们找工作关注的:职位信息: 软件工程师;公司名称,行业名称:软件公司,外包行业等;地点:北京,海淀;
    (3)垂直搜索引擎的搜索行为是基于结构化数据的搜索:
        比如:找:海淀软件工程师 的工作等。

为什么我们要开发自己的垂直搜索引擎平台?
        (1)Lucene弱点:不支持分布式、速度慢、性能差
        (2)垂直搜索引擎,索引的对象是结构化信息(记录),必须支持字段索引和检索,而通用的数据引擎,不支持这方面功能。
       (3)自主知识产权
       (4)需要支持复杂业务

垂直搜索引擎什么研发?(重点:索引和检索)
    (1)业务需求分析和抽象化:
    (2)整体架构设计:

垂直搜索引擎研发经验总结
垂直搜索引擎研发经验总结

        数据服务平台模块:负责引擎数据的统一管理,接收带有类型标识的待索引数据和索引过程中产生的用于检索的格式化数据;   
        CacheServer模块:负责web前端与引擎后台之间的数据交互(接收请求、分析请求),以及缓存检索结果;
        MiddleServer模块:转发检索请求,并合并各IndexSearch返回的检索结果,完成相关性排序;
        IndexSearch模块: 分析检索请求 ==> 语素系列 ==> 合并各语素检索结果 ==> [其它过滤] ==>
        IndexBuilder模块:根据配置,对输入数据索引,生成倒排索引数据
      
    (3)详细设计和编码:
    (4)需要具备的知识点:链表、栈、队列和优先队列、哈希表、、B+树、快速排序、堆排序、基于文件的外排序、倒排索引、多线程和互斥、socket编程(select和epoll)、系统编程(目录、文件操作和管理)等等。

分享到:
评论

相关推荐

    网页库级垂直搜索引擎技术

    垂直搜索引擎的选型;网页库级垂直搜索引擎技术(二)如何做好一个垂直搜索引擎;信息抽取的资料文档

    综合搜索引擎与垂直搜索引擎的比较研究

    搜索引擎是目前互联网信息服务的主要工具, 它...本文从信息服务的角度出发, 通过对综合搜索引擎与垂直搜索引擎在信息服 务各个要素方面的比较, 找出它们之间的竞争与合作的关系, 为当前的搜索引擎发展做出初步的 分析。

    垂直搜索引擎的设计与实现

    论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...

    垂直搜索引擎研究

    基于lucene的垂直搜索引擎研究,开题报告

    基于Lucene_Heritrix的垂直搜索引擎的研究与应用

    探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta Lucene 3、网络爬虫Heritrix 4、Lucene和Heritrix在构建垂直搜索引擎中的应用(含代码) 5、...

    垂直搜索引擎系统

    DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。

    垂直搜索引擎网络爬虫的研究与实现.pdf

    垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf垂直搜索引擎网络爬虫的研究与实现.pdf

    SOPI垂直搜索引擎系统 V2.2

    SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个多功能垂直搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。 SOPI垂直搜索引擎系统的应用特点 外网搜索...

    垂直搜索引擎源代码

    垂直搜索引擎,自带爬虫,sql2008数据库,并发高,处理速度快,有web页面查询。dell 1950 可以每秒处理10g的查询,支持上亿的数据。

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    基于Java的垂直搜索引擎的设计与实现.pdf

    基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf基于Java的垂直搜索引擎的设计与实现.pdf

    垂直搜索引擎完全开源版

    网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...

    垂直搜索引擎聚焦爬虫技术研究

    介绍了一种垂直搜索引擎的爬虫设计方案,这是主题搜索引擎的核心部分。

    HiGo垂直搜索引擎系统 v7.3.rar

    HiGo垂直搜索引擎开源版系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence mysql asp.net,支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集...

    垂直搜索引擎研究 pdf

    垂直搜索引擎研究垂直搜索引擎研究垂直搜索引擎研究垂直搜索引擎研究

    垂直搜索引擎硕士论文

    详细介绍了利用heritrix和luncene两大开源软件搭建垂直搜索引擎平台,是很好的参考文献。

    横瓜垂直搜索引擎V3.2-横瓜Windows平台的垂直搜索引擎

    横瓜垂直搜索引擎,是Windows平台的垂直搜索引擎(不提供网络爬虫),最大可容量6000万条记录。 对于100万条记录规模的数据库,可在2分钟内完成所有架构工作。横瓜垂直搜索引擎分词速度约为 2500万字/分钟,约占99.984...

    奥搜垂直搜索引擎 v6.0标准版

    奥搜垂直搜索引擎 v6.0标准版 奥搜垂直搜索引擎 v6.0标准版

    Lucene实现的数码产品垂直搜索引擎

    Lucene实现的数码产品垂直搜索引擎 运用了dwz、htmlparser

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

    优秀的研究生毕业论文,主题为职位垂直搜索引擎,有一定的参考意义

Global site tag (gtag.js) - Google Analytics