`

搜索引擎google、baidu数据存储方式

阅读更多

全球第一牛站google,能够如此快速的对搜索的关键字做出反映,让人赞不绝口,在看google earth,goole map等大量的图形数据。这些数据如何存储的呢?一直让人感觉很神秘。相传,google最牛的技术,就是让一大批普通机器,配置成大型的集群,来应对 google的海量存储。

 

    但,具体如何存储呢?

 

    google的存储为GFS(Google file system)分布式存储文件系统,多读少写的数据如大索引文件,google map地图文件, 静态网页等采用bigtable来存储,bigtable是一种弱关系型存储系统,建立在GFS之上,字段并不满足关系数据库范式中的原子性等,而是可根 据时间戳来存储单个数据的多版本,列分为列簇(column family),可把一系列相关的列定义为一个列簇。GFS的数据存储是分块(block) 存储的,一个文件被分成64M/block的若干块,可同时往多个数据服务器插入,而下载时,可同时从多个数据服务器拿一个文件的不同部分,这就提高了数 据的吞吐效率。此外GFS的文件采用分段压缩机制,即若干block作为一个压缩单元进行压缩,而非整个文件进行全压缩,这样可以在读取文件时边读边解压 缩。bigtable中也可以建立列的索引,理想情况下一次I/O预先加载索引,然后再一次I/O定位磁盘中的数据,然后作顺序读来载入数据。这样比一般 关系数据库的载入速度要快,如果我没有记错的话,一般关系数据库定位数据至少需要4次左右的磁盘I/O。
GFS适合海量数据存储,而bigtable适合弱关系型数据的存储。

     至于百度,百度在数据操作上,网站方面用的mysql,但百度在mysql的源码基础上做了一些特定的优化。
在数据存储介质上,百度有些地方用的是SD卡,但SD卡同样只适合于多读少写的应用场合,否则SD卡寿命很快耗尽,这样比物理操作的磁盘要高效很多。

任何东西要看具体应用来讲,关系型数据库适合于逻辑,业务复杂的企业级系统。对稳定性,可扩展性,安全性,容错性,事务性要求比较高的场合采用oracle,sqlserver等绝对没错。

分享到:
评论

相关推荐

    SOPI垂直搜索引擎系统 V2.2

    外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容更新。 SOPI 系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时...

    bing、google、baidu搜索引擎爬虫。python3.6 and scrapy.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    这就是搜索引擎(mobi).zip

    另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化...

    一个Python模块用于抓取几个搜索引擎bd,gg,soso

    1. **搜索引擎选择:** 选择几个目标搜索引擎,如Google、Bing、Baidu等。 2. **构建搜索请求:** 根据用户提供的关键词和其他搜索参数,构建相应的搜索请求URL,包括搜索词、页面数量、排序方式等。 3. **发送...

    这就是搜索引擎

    这就是搜索引擎 核心技术详解 张俊林 著 带书签 这本书是写给谁的 如果您是下列人员之一,那么本书就是写给您的。 1. 对搜索引擎核心算法有兴趣的技术人员 • 搜索引擎的整体框架是怎样的?包含哪些核心技术? • ...

    搜索引擎实验报告.docx

    学会运用这些搜索引擎的各种便捷方法,能让我们节省很多时间和精力,带来最满意的用户体验 实验内容: 采取一定的技术手段、方式和方法获取信息 搜索引擎实验报告全文共7页,当前为第1页。 搜索引擎实验报告全文共7...

    这就是搜索引擎:核心技术详解

    搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个...另外,《这就是搜索引擎:核心技术详解》也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技...

    基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫,结果存入mysql。.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    搜索引擎设计软件程序源码+数据库+WORD毕业设计论文文档.zip

    现如今,人们看到的百度、Google取得的显著成效,可以说是成为了行业的领头羊,所以整个世界也都把视觉一部分放置在了搜索引擎这一领域当中,各种各样的搜索服务犹如雨后春笋一般争相冒出。搜索引擎不仅种类愈来愈多...

    互联网在线翻译引擎爬虫集合.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    观其站长工具箱(搜索引擎收录、PR、Alexa排名查询) 20130730.zip

    工具主要特点:使用方便,查询快速,打开工具就可以查询,直接访问各个目的接口,不需要读取第三方站点(除Google,Alexa,Sogou,以及几大搜索引擎以外的站点)的数据,查询速度快。可以进行多个网站的批量查询,并...

    06、JAVA【Android开发】数据存储精讲视频

    本教程是本人在学习JAVA...多写代码,多用搜索引擎,把报错信息直接复制到百度或者谷歌搜索,前期慢一点没关系,遇到问题先独立思考。 切记 不要走马观花,一路快进,编程没有捷径,有时候你一个快进,就错过了重点

    Python爬虫算法-谷歌内部资料

    Python爬虫常见的应用包括但不限于:搜索引擎数据抓取(如百度、Google等)、舆情监控、数据采集与分析、自动化测试等。 需要注意的是,在进行网络爬虫时,务必要遵守法律法规和相关网站的规定,尊重网站的robots....

    elk-stack-guide-cn.pdf

    像类似百度、谷歌这种大数据全文搜索引擎的场景都可以使用Elasticsearch作为底层支持框架,可见Elasticsearch提供的搜索能力确实强大,市面上很多时候我们简称Elasticsearch为es。Logstash是ELK的中央数据流引擎,...

    计算机视觉与深度学习实战-以MATLAB和Python为工具_基于融合特征的以图搜图技术_项目开发案例教程.pdf

    目前有许多主流搜索引擎均提供了图像搜索通道,如谷歌相似图搜索、百度识图等。在搜索图像时不仅可以根据与图像相关联的文字信息来搜索,而且能够按照图像内容本身来搜索,具有很高的使用价值。

    Arise:在搜索引擎中自动提取记录

    Arise组件可以全自动抽取目前主流搜索引擎(百度、谷歌、Bing、Yahoo、Sogou、haosou、Sina、s.weibo、Youdao、Goso、盘古等)结果页面数据记录的三个元信息(标题、URL、摘要)。 Arise由C++编写,由Cmake构建工程...

    大数据使用及现状调研报告.pdf

    3、电⼦地图如⾼德、百度、Google地图出现后,其产⽣了⼤量的数据流数据,这些数据不同于传统数据,传统数据代表⼀个属性或⼀个度 量值,但是这些地图产⽣的流数据代表着⼀种⾏为、⼀种习惯,这些流数据经频率分析...

    关键字排名查询工具

    查询关键字在Baidu、google、yahoo、soso、bing、搜狗和有道七大搜索引擎中的排名。工具具有自定义保存网址和关键字、批量查询、查询结果导出、关键字密度查询等功能,提高您在seo关键字排名方面工作的效率。 观其...

    《信息检索系统》方案.doc

    百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各 地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站 数量以及网络上信息更新的快速化,这些网络爬虫不能保证...

    信息检索系统方案.docx

    百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把...

Global site tag (gtag.js) - Google Analytics