`
javatgo
  • 浏览: 1216548 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

 
阅读更多

开源:实时采集,实时索引,实时检索的视频搜索引擎正式开源,单机支持3000万网页的全文索引

整个视频搜索引擎包括:网站(C#+C语言)、中文分词服务器3.2(C语言)、索引内核2.0(C语言)、索引服务器1.0(C#+C语言)、采集器3.1(delphi)

网站 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
数据存储:可采用mysql、sql server、sqlite、oracle中的任何一种,无须更改代码,只需更改配置文件
性能指标:每分钟有效并发10万
在线范例:http://bida.cc
下载地址:
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引服务器1.0 相关指标:
开发语言:C#+C语言
编译器:VS2008
测试环境:xp、win2000、win2003、win7、win2008、win8
性能指标:每天有效索引>=50万(实时:新增数据即时索引)
是否开源:是,并附带完整代码注释及说明
是否可免费使用:是

索引内核2.0(C语言) 相关指标:
名称:百万商业圈全文索引器
开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8、ubuntu、SUSE、CenterOS
性能指标:采用创新的倒排全文索引,单机(普通PC 2G内存)支持3000万网页的全文索引,任意检索不超过0.2秒。
功能支持:新增索引、更新索引、删除索引、检索归并
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
索引内核1.0(C语言)说明,包括动态摘要、高亮显示、相关设置等


中文分词服务器3.2(C语言) 相关指标:
名称:百万商业圈中文分词服务器
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕
在线范例:http://bida.cc:888
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是
内部版本:单线程稳定版
相关说明:http://www.cnblogs.com/bwsyq/archive/2011/12/02/2271611.html
注:网站开发框架中提供了三种中文分词方式 默认采用 百万商业圈中文分词

采集器3.1(delphi)  相关指标:
名称:百万商业圈龙蛛采集器 - 视频采集器
编译器:delphi 7.0
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:非特殊情况可连续运行>=一年
平均性能:2MB以内带宽每分钟采集上千视频
是否开源:否,并附带完整代码注释及说明
是否可免费使用:是

附加:百万商业圈龙蛛采集器3.1 - 网页采集器:可自行设置保存目录和采集深度,
理论上根据一个入口地址可采集整个互联网,没有特殊情况程序可持续运行一年,
不会有任何错误,每5000个文档自动生成一个子目录,文件名都是整数,便于索引。

完整说明请参见:百万商业圈视频搜索引擎说明.doc (2.66MB) 
完整源代码下载1: 百万商业圈视频搜索引擎源代码及完整说明 (37.42MB) 在windows上打的包
完整源代码下载2:所有源代码及全部模块完整下载地址 (39.58MB) 在linux上打的包

注意:单机(普通PC、一般硬盘、2G内存)最大支持3000万条数据或网页的全文索引,任意检索不超过0.2秒。
     超过3000万的数据,请使用:百万商业圈开源可编程的集群分布式云平台

0
0
分享到:
评论

相关推荐

    Node.js-Ambar是一个开源文档搜索引擎具有自动抓取OCR标记和实时全文搜索功能

    Ambar是一个功能强大的开源文档搜索引擎,它集成了自动抓取、光学字符识别(OCR)和实时全文搜索功能,极大地提升了文档处理和检索的效率。 ### 1. Node.js介绍 Node.js是一个基于Chrome V8引擎的JavaScript运行...

    Sphinx 是一个开源的全文搜索服务器,从头开始设计时就考虑到了性能、相关性(又名搜索质量)和集成的简单性

    Sphinx 是一个强大的开源全文搜索引擎,它以性能卓越、相关性高和易于集成著称。在深入了解Sphinx之前,我们先来理解全文搜索的基本概念。全文搜索允许用户输入自然语言查询,然后在文档集合中搜索匹配的内容,而不...

    20款开源搜索引擎

    Sphinx 是一个高性能的全文搜索软件包,支持高速建立索引、高性能搜索、高扩展性、支持分布式检索等特征。它支持 PHP-API 调用或作为 Mysql 的存储引擎。 OpenWebSpider 是一个开源多线程 Web Spider 和搜索引擎,...

    Lucene全文检索引擎

    Lucene是Apache软件基金会的一个开源项目,它是一个高性能、全文本搜索引擎库,可以被集成到各种应用中实现全文检索功能。Lucene提供了完整的搜索功能实现,包括索引创建、文档存储、查询解析和结果排序等。它的设计...

    Lucene全文检索框架+Solr搜索引擎(2018版.Java)

    5. **丰富的搜索功能**:除了基本的全文检索,Solr还支持地理位置搜索、评分排序、 faceted search(分类浏览)等高级功能。 6. **自定义功能**:用户可以通过编写插件自定义分析器、查询解析器、过滤器等,满足特定...

    Nutch使用总结 信息检索 建立索引 搜索引擎

    Nutch 是一个开源的网络爬虫项目,主要用来抓取互联网上的网页并建立索引,为信息检索提供基础。对于初学者来说,它是一个很好的平台,可以深入了解搜索引擎的工作原理并动手实践。 ### 1. 系统架构 Nutch 的系统...

    开源搜索引擎,solr

    建立索引,检索,分词,分类,开源搜索引擎,solr

    斯芬克斯全中文搜索引擎加自动分词mysql+swsc+php,全文索引

    1. **斯芬克斯(Sphinx)**: Sphinx是一个开源的、实时的全文搜索引擎,它能够提供非常快速的全文检索能力,同时支持布尔运算、短语匹配、近似搜索等多种查询类型。Sphinx特别适合那些需要在大量数据中进行高效搜索...

    一个C#写的开源搜索引擎代码

    《C#实现的开源搜索引擎深度解析》 在IT领域,搜索引擎是信息检索的重要工具,而C#作为.NET框架下的主流编程语言,也被广泛应用于各种软件开发,包括搜索引擎的实现。本篇文章将深入探讨一个基于C#编写的开源搜索...

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    fastsearch 一个golang实现的全文检索引擎,支持持久化和单机亿级数据毫秒级查找

    fastsearch是一个用Golang语言编写的全文检索引擎,它的显著特点是支持数据的持久化存储以及在单机环境下对亿级数据的毫秒级检索能力。这样的性能特性使得fastsearch在处理大数据量时具有很高的效率和实用性,特别...

    sphinx全文搜索引擎

    Sphinx全文搜索引擎是一款高效、可定制的开源全文检索引擎,主要设计用于网站后台提供快速、准确的全文搜索功能。它最初由俄罗斯开发者Andrew Aksyonoff开发,现在已经成为许多大型网站和应用程序的重要组成部分,...

    Lucene.Net 实现全文检索

    Lucene.Net 是一个基于 Apache Lucene 的开源全文搜索引擎库,专为 .NET Framework 平台设计。它提供了一套高级文本搜索程序库,让开发者能够在 .NET 应用程序中轻松实现全文检索功能。在本案例中,我们将在 .Net ...

    骆卫华-利用开源工具构造小型搜索引擎

    1. **搜索引擎体系结构**:描述了典型的全文搜索引擎的组成,包括采集器、分析器、索引器、检索器、人机接口和索引数据库。 2. **小型搜索引擎的目标与功能**:旨在帮助学生理解信息检索技术的原理,并实际搭建一个...

    Lucene基于Java的全文检索引擎简介

    ### Lucene基于Java的全文检索引擎简介 #### 一、Lucene概述与历史背景 Lucene是一个基于Java的全文检索引擎工具包,旨在为各种规模的应用程序提供强大的文本搜索功能。该工具包由Doug Cutting创建,他是全文检索...

    Sphinx基于SQL的全文检索引擎简介

    Sphinx是一款开源的全文搜索引擎,特别适用于需要高效、精确全文搜索功能的应用程序。它由俄罗斯开发者Andrew Aksyonoff创建,最初是为了解决数据库的全文检索问题而设计的。Sphinx以其快速、准确和可扩展性而闻名,...

    用C语言写的C搜索引擎含多种建立索引的方式

    Swish-e是一个开源的全文搜索引擎,它支持多种文件格式,并且允许用户自定义索引策略。这个压缩包可能包含了源代码、编译脚本、文档和其他相关资源,供学习者研究和实践。 通过学习这个项目,你可以了解到以下关键...

    Go-riot是一个Go语言开发的开源分布式简单高效搜索引擎

    Go-riot是一个基于Go语言构建的开源分布式搜索引擎,它的设计目标是实现简单高效,这使得它在处理大规模数据检索时具备高性能和可扩展性。在深入探讨Go-riot之前,我们先来了解一下Go语言和分布式系统的基础知识。 ...

    利用开源工具构造搜索引擎

    - **Lucene**:这是一个强大的全文搜索引擎库,可以用于构建索引并进行高效检索。它支持各种索引策略,如TF-IDF权重计算,以及布尔、短语和模糊查询。 4. **检索实现(Retrieval Implementation)**: - **查询...

Global site tag (gtag.js) - Google Analytics