Google即将开始深度Web索引 - 12 - ITeye博客

`

阿尔萨斯

浏览: 4196094 次

最近访客更多访客>>

snower_tt

iams13

u012363178

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2014-10 ( 581)
2014-09 ( 572)
2014-08 ( 545)
更多存档...

最新评论

Google即将开始深度Web索引

阅读更多

<nobr>Google</nobr> 从来都不会停止对信息的追求，去年共有100 Exabyte 的<nobr>数据</nobr>被 Google 消化（1Exabyte=1000000000Gigabyte）。据估计，仍有大量的在线数据是 Google 所无法获取的，如那些未被索引的网页，非文本内容，以及需要通过表单<nobr>发布</nobr>方可获取的动态内容，即所谓的深度Web。Google 近日在一篇博客文章中宣布，他们即将涉足这些深度Web数据。

在这篇博客文章中，Google 的 Jayant Madhavan 与 Alon Halevy 说，对于那些文本框，我们会从所在页选择一些词汇填写，对于选择框与复选框，我们会从 HTML 中选择一些值，一旦填写好表单，我们会尝试发布这个表单并对返回的合法，有意义的内容进行索引。

Google 同时强调，他们会一如既往地尊重 robots.txt 协议，任何在 robots.txt 被禁止的表单都不会被索引。

据估计，深度 Web 的规模是常规的公开 Web 的数倍，尽管在<nobr>网络</nobr>中，有很多数据是 Google 不应涉足的，但表单可以让 Google 在网络中更进一步，Matt Cutts 指出，我们这样做主要不是为了那些通过表单发布而返回的搜索结果，更多是为了发现一些通过常规手段所没能发现的新链接。

需要指出的是，Google 只索引那些使用 GET 协议的表单，而不会尝试去发布那些使用 POST 协议的表单，所以，你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。

分享到：

程序员创业，不要把风险带给家人！ | Smarty简单方便初始化

2008-04-14 10:04
浏览 226
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Google资深工程师深度讲解Go语言爬虫项目。.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

微软和谷歌的自动化测试，web网站爬虫.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

谷歌专利爬虫.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

谷歌学术爬虫，根据搜索词汇总信息表格并保存.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

接入google search以及爬虫的chatgpt聊天机器人.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

bing、google、baidu搜索引擎爬虫。python3.6 and scrapy.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

谷歌无头浏览器puppeteer结合nodeJs+golang书写的行为类爬虫项目。附带示例.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

网络爬虫调研报告.doc: 深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行器采用宽度优先搜索策略...

网络爬虫调研报告(1).doc: 深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行器采用宽度优先搜索策略...

网络爬虫调研报告(2).doc: 深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行器采用宽度优先搜索...

基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫，结果存入mysql。.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

互联网在线翻译引擎爬虫集合.zip: 包含谷歌翻译、百度翻译、有道翻译、必应翻译等引擎爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具...

asp.net知识库: 深度解析Asp.Net2.0中的Callback机制使用 Web 标准生成 ASP.NET 2.0 Web 站点 ASP.NET 2.0基于SQLSERVER 2005的aspnetdb.mdf部署 ASP.NET 2.0 Security FAQs Asp.net 2.0功能体验，细节之Web控件（一）隐藏控件 ...

C++网络爬虫项目: Google等商业搜索引擎提供商，为此开发了一整套云存储与云计算平台，使用数以万计的普通PCWEBCRAWLER 网络爬虫实训项目 4 搭建了海量信息的可靠存储与计算架构，以此作为搜索引擎及其相关应用的基础支撑。优秀的...

精通AngularJS part1: 编辑推荐《精通AngularJS》指出AngularJS诞生于Google，已用于开发多款Google产品。它是一套JavaScript前端框架，用于开发当下流行的数据驱动的单页面Web应用。其核心特性是：MVC、模块化、自动双向数据绑定...索引337

Global site tag (gtag.js) - Google Analytics