`
Ryee
  • 浏览: 273551 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Google是如何搜集互联网信息

阅读更多

如果你问别人什么是力量。培根会说“知识就是力量”,Google会说“信息就是力量”,某人会说“隐私就是力量”。毋庸置疑,Google早已认识到信 息(数据)的力量。相信其他公司,不管是互联网公司,还是其他类型公司,多多少少都应该意识到这一点了。否则,哪里会出现贩卖用户资料的案件?

 

Google信息收集渠道

  Google的使命是:“整合全球信息,让人人可用,人人受益”。它也正在很好地兑现这个诺言。然而,Google正在收集的信息似乎比我们意识到的还要多。

  • 1. 搜索 (网页、图片、新闻和博客等)- 众所周知,Google是全球最受欢迎的搜索引擎,其全球市场占有率几近70%(比如,美国本土占66%)。Google追踪所有的搜索,其现在的搜索方式也越加个性化,个性化势必将越来越细化。
  • 2. 搜索结果中的点击 - Google不仅能知道我们要找什么,它也知道我们点击了哪些搜索结果。(编者注:这个做SEO的朋友应该很清楚,可以从Google Analytics中知道。)
  • 3. 网页检索 - Google的网页爬虫Googlebot就是一只不知疲倦的小蜜蜂,一直不停地“品读”和收录数十亿的网页。
  • 4. 网站分析 - Google Analytics是目前最受欢迎的网站分析工具。因其免费并支持多种高级特性,全球大量网站正使用它。
  • 5. 广告服务 - Adwords和Adsense是Google财务成功的基石,但它们也给Google提供了大量的有价值的数据。网民点击了那些广告,广告主在竞争哪些关键字,哪些关键字最值钱等等。这些信息都是非常有用的。
  • 6. 电子邮件 - Gmail是全球三大电子邮件服务之一,面临着来自微软的Hotmail还有雅虎的Email的竞争。邮件内容,包括发送内容和接收内容,都是可以解析和 分析的。即使是从安全角度来看,这也是Google的一项优秀服务。Google的邮件安全服务——Postini,要从海量Gmail用户中,接收超大 量的数据,包括垃圾信息、恶意软件和邮件安全趋势数据。(编者注:2007年,Google以六亿二千五百万美元的价格收购网络安全服务商 Postini,以此为Google的小型商务客户提供更好的电子邮件安全服务。)
  • 7. Twitter - “你说有的Twitter消息都是我们的”,这句话用来解释早期的网络快速传播现象(又称“网络爆红现象”)。在09年和Twitter达成交易后,Google可以直接访问Twitter上所有的消息。
  • 8. Google应用服务 (文档、电子表单和日历等) - Google的办公套件有很多用户,它当然也是Google的一个数据收集来源。
  • 9. Google公开的个人资料 - Google鼓励你把你的个人资料在网络上公开,这些资料包括你活跃在哪些社交网站(Facebook或Linkedin),你的个人主页和在线图片等等。
  • 10. Orkut - 虽然Google的社交网络还并不是很成功,但Orkut在巴西和印度还是有很多成功。(编者注:为什么还没有成功?可参见伯乐在线此文:《Google的社交网络为什么还没有成功 》。)
  • 11. Google Public DNS - Google2009年年末推出的DNS服务并不只是帮助网民获得更快的DNA解析,也同时帮助Google自己。因为从这项服务中,Google可以获得大量的统计数据,比如网民访问了哪些网站。
  • 12. Chrome浏览器 - Chrome可以收集你的浏览器行为,还有访问哪些网站。
  • 13. Google财经 - 除了财经数据之外,用户在Google财经上搜索的信息和使用的信息都是Google的重要数据。
  • 14. YouTube - 这个目前是全球最大最受欢迎的视频网站,为Google所有。它也向Google提供了大量的用户观看习惯方面的数据。
  • 15. Google翻译 - 帮助Google完善其自然语言解析和翻译。
  • 16. Google Books - 虽然现在不是很庞大,但有潜力帮助Google知道网民阅读习惯和他们想阅读什么东西。
  • 17. Google阅读器 - 目前为止是全球最受欢迎的Feed阅读器。你订阅了哪些RSS种子?你在看哪些博文?Google会知道的。
  • 18. Feedburner - 很多博客都使用Feedburner来公开其RSS种子。Google追踪Feedburner的每一条链接。
  • 19. Google地图和 Google Earth - 你对哪些地方感兴趣?(Google也会知道的)
  • 20. 你的联系人网络 - 你在Gtalk和Gmail等上的联系,组成了一张错综复杂的用户网。如果他们都使用Google,网络映射更为深刻。虽然我们不知道Google是否做了这个,但这上面的数据是可以收集的。
  • 即将推出的 - Chrome OS等Google更多可能成功的产品。
  • 刚推出不久的 - 即时搜索和Goo.gl等服务
  • 已经消亡的 - Google Wave等(虽然消亡了,应该死前收集了一些数据吧。)

造访Google数据库

  值得称道的是,Google正通过各种服务来利用其收集的数据,进一步为你提供服务。

  • Google趋势
  • Google网站趋势
  • Google搜索解析
  • Google广告计划
  • 其他诸如Wonder Wheel这样的搜索工具


  如果Google能公布如此之多的数据,可以想象一下数据量有多大,还有Google所知道的细节程度有多深。而且这些服务也能向Google提供更多的数据,比如我们对哪些趋势感兴趣,我们在找哪些网站等。

  在使用Google趋势等这些工具的时候,发现一个有趣的现象:我们几乎可以知道一切,但就是无法知道Google自身的产品。比如,“Goolge广告计划”和“Google网站趋势”并不显示Google自身站点的信息,但你可以找到其他站点的信息。

 

 

分享到:
评论

相关推荐

    Google是如何搜集互联网信息的.docx

    Google是如何搜集互联网信息的.docx

    Google.Hacks.探索和利用全球信息资源的技巧和工具

    2.及时从Google收集网络快照 3.搜索结果视觉化 4.拼写检查 5.Google电话簿:让Google的手指为你指路 6.查找定义 7.查找信息所在的目录 8.搜索所有基本的关键词 9.搜索表单妙用 10.比较Google和Yahoo!的...

    [详细完整版]互联网术语.docx

    之前花了点时间收集了一些互联网术语和解释,现在分享出来,给小伙伴们添堵添乱。 (1) ACG:为英文Animation、Comic、Game的缩写,是动画、漫画、游戏的总称。ACG文化的发源地是日本,以网络及其他方式传播。为华人...

    网站推广分析报告

    简单来说,搜索引擎就是对互联网上的各种信息进行搜集、整理,然后帮助 用户进行搜索查询的系统。 搜索引擎可以说是一个使用特殊程序将互联网上的信 息归纳分类,专门为用户提供检索信息服务的网站。在全球最知名的...

    Google Hacks探索和利用全球信息资源的技巧和工

    搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

    Google 拼音输入法 2.7.25.128 正式版.zip

    弹出广告,广告暗刷插件等简直就是藏污纳垢之出,谷歌拼音输入法算得上是非常纯净的输入法了,网上是有许多版本,但基本大部分都含捆绑,不敢用,特在维基百科收集的互联网历史档案馆保留的谷歌输入法的正式版的最终...

    谷歌学术爬虫,根据搜索词汇总信息表格并保存.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    《互联网金融》第八章.pptx

    此外,大数据又被引申为解决问题的方法,即通过收集、分析海量数据获得有价值信息,并通过实验、算法和模型,从而发现规律、收集有价值的见解和帮助形成新的商业模式。2012年,联合国发布大数据政务白皮书《大数据促...

    论文研究 - 海湾合作委员会(GCC)国家的大学生信息动态

    结果发现,大多数学生使用诸如Google之类的搜索引擎来搜索信息。 还发现学生使用互联网作为完成作业的来源。 这项研究表明,社交媒体会影响科威特大学生的信息动态。 本文对海湾合作委员会国家学生的信息动态进行了...

    政府监督与互联网搜索行为-研究论文

    本文显示了来自美国及其前40个贸易伙伴的数据,这些数据来自2013年6月的监视性披露前后的精选关键字搜索量,以分析Google用户的搜索行为是否因此而改变。 监视披露被视为美国政府对用户互联网搜索的密切程度信息的...

    Google Surveillance Detector-crx插件

    它没有秘密的互联网巨头,如谷歌在访问其网站时收集您的数据。 这是交易 - 你可以使用免费软件,他们可以收集所有数据来针对您的广告。 但如果你决定你不喜欢这个讨价还价怎么办? 谷歌声称您可以随时停止。 十年来...

    谷歌专利爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Українська мова в Google-crx插件

    扩展的语言统计,收集Google结果的语言统计信息。收集众所周知的谷歌搜索引擎的匿名语言统计信息,并根据您的许可发送它以研究HMARA.INFO。设置扩展并提供使用信息的权限 - 因此您将帮助我们的项目探索和发布有关...

    2019互联网女皇报告(中英文全文)“互联网女皇”玛丽.米克尔(Mary Meeker)今天发布了2019年《互联网趋势》报告

    上世纪90年代至本世纪初,互联网+移动设备+云:网景网络浏览器——1994年、亚马逊AWS云服务——2006年、苹果iPhone——2007年、苹果AppStore——2008年; 1995年以后成功的企业=使用数字数据/见解来改善顾客体验; ...

    互联网在线翻译引擎爬虫集合.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    中文知识图谱报告-2018

    务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利 用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据 到信息到知识,最终到智能应用的转变过程,从而实现对...

    OSINT采集工具:一款互联网公开情报(OSINT)采集工具

    一款互联网公开情报(OSINT)采集工具。作为一个进攻性的谷歌框架,GHunt (v2)旨在有效地发展,帮助用户收集并分析有关目标的信息。

    微软和谷歌的自动化测试,web网站爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    浅谈电子商务的大数据时代.docx

    浅谈电子商务的大数据时代 作者:郑华君 来源:《科技视界》 2015年第23期 郑华君 (建东职业技术学院,江苏 常州 213022) 【摘 要】随着网络信息化时代的日益普遍,电子商务大大拓展了互联网的疆界和应用领域,我们...

    接入google search以及爬虫的chatgpt聊天机器人.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

Global site tag (gtag.js) - Google Analytics