转自:人云亦云
最近,Google发布一篇关于其新一代实时搜索系统核心机制的论文《Large-scale Incremental Processing Using Distributed Transactions and Notifications》,在这篇论文中介绍名为“Percolator”的一个基于BigTable的系统,在功能上其非常类似传统数据库的触发器(Trigger),但是在伸缩性方面有其独到的设计,下面是其摘要、下载地址和相关文章等。
摘要
Updating an index of the web as documents are crawled requires continuously transforming a large repository of existing documents as new documents arrive. This task is one example of a class of data processing tasks that transform a large repository of data via small, independent mutations. These tasks lie in a gap between the capabilities of existing infrastructure. Databases do not meet the storage or throughput requirements of these tasks: Google’s indexing system stores tens of petabytes of data and processes billions of updates per day on thousands of machines. MapReduce and other batch-processing systems cannot process small updates individually as they rely on creating large batches for efficiency.
We have built Percolator, a system for incrementally processing updates to a large data set, and deployed it to create the Google web search index. By replacing a batch-based indexing system with an indexing system based on incremental processing using Percolator, we process the same number of documents per day, while reducing the average age of documents in Google search results by 50%.
下载地址 (liuxinglanyue注:墙)
相关文章
Google’s Colossus Makes Search Real-Time By Dumping MapReduce
分享到:
相关推荐
Android是Google公司推出的手机操作系统。近几年,Android操作系统的发展极其迅猛。与Android市场繁荣的同时存在的,是Android的安全问题日益突出,各种隐私泄露,信息丢失,恶意扣费,系统入侵屡见不鲜。针对Android安全...
Google是开发出既有效率又能容错的并行计算就是使用这个算法
NEWTECHNOLOGY新品科技谷歌发布智能家居核心处理系统GoogleHome.pdf
Google搜索引擎 Google搜索引擎 Google搜索引擎 Google搜索引擎
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个...另外,《这就是搜索引擎:核心技术详解》也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技...
Google搜索引擎的核心_PageRank算法综述 搜索引擎技术 系统资料 算法分析
Google的云计算三大核心技术 Google File System MapReduce model Bigtable data storage platform
美国有很多著名的IT跨国企业,如谷歌、Facebook、微软、IBM等,都将人工智能技 术作为企业的核心战略,持续投入巨资并招聘领军人才,强力涉足该领域。 在技术方向上,美国将机器人技术列为警惕技术,主攻军用机器人...
易语言谷歌浏览器核心插件,非常好用,代码完整。
欢迎来到谷歌(Google)搜索引擎优化初学者指南。本文档起初只是在谷歌内部使用,但是我们考虑到,也许它对那些刚刚接触搜索引擎优化、并且希望提高网站与用户和搜索引擎交互性的网站管理员们也一样会有帮助,所以...
google核心搜索jsp实现方式 测试试验版
python基于googlenet的实时检测系统源码.zip
6月27号(最新版)google search clone 谷歌搜索类, 通过GOOGLEAPI可以轻松的实现查询,还可以指定搜索范围,如国家,地区,语言等等。
Jquery调用Google搜索API实现搜索引擎,使用起来很方便很快速的一个插件工具
谷歌三大核心技术(三)Google_BigTable中文版
谷歌眼镜核心源码 供喜欢google glass的人研究
seo-google google搜索技巧、google搜索语法 pdf版
google技术内幕 你可以掌握搜索核心技术 你可以好好的学习和掌握 掌握这门技术对于IT人员来说 很是重要
一种全新的搜索方式,谷歌语音搜索通过机器识别和智能分析,回归了人类用语言询问的自然本能,一个用户可以快速说出搜索词,例如“清华大学附近的水煮鱼”,谷歌中文语音搜索给出准确的搜索结果。此外,用户还可以...
一个好实用的ajax搜索 实现google搜索 模仿了google的搜索