原文: http://wiki.huihoo.com/index.php?title=Search_Engine_Technology
搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。
搜索引擎的策略都是采用服务器群集和分布式计算技术。
<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; showTocToggle(); } </script>
网页搜索引擎
网页搜索引擎各子系统的设计和实现可能涉及的内容:
- 网页信息抽取、质量分析
- 数据挖掘、用户行为分析
- 分布式大规模网络服务设计
- 高性能计算,实时海量数据处理
- 相关性算法
- 中文处理,新词挖掘
集群开发
- 数百/数千台服务器在协同工作
- 管理和调优数据中心的各种设备
这需要你了解服务器硬件架构和相关原理,能够对硬件和操作系统层面进行优化。
这需要你熟悉linux内核,熟悉TCP/IP协议栈,熟悉路由交换技术。
- 大规模集群的系统支持
- 先进数据中心的集成支持
- 一个跨越全国的分布式系统的网络性能
- 先进的网络安全技术
机群运维
- 网页搜索各个子系统的运维操作、服务监控、故障排查,以及紧急情况下的应急处理
- 服务监控与自动运维系统或工具的设计与开发
- 研究服务架构,发现潜在问题,对网页搜索系统的研发提出改进需求,提高系统的健壮性和效率
- 对IDC、硬件、网络等资源进行规划和部署
- 制定、整理和优化内部制度和流程,制定和改进应急预案,提高服务运行的质量
- 对相关新技术保持敏锐感觉,调研和试验新的技术方向
基础设施
- 挑战系统极限--研究与优化 linux 操作系统;
- 挑战硬件性能极限--研究与定制服务器硬件系统;
- 挑战大规模、高性能网络极限--研究与优化网络;
- 挑战大规模网络环境、大服务流量情况下的网络、服务安全--研究与设计安全系统
- 设计最适应自身的IDC--研究IDC各子系统;
- 将最新研究成果,在最短的时间,应用到超大规模集群,接受亿万网民的考验!
数据分析
Machine Learning
AI on the Web: Machine Learning
- Machine learning refers to a system capable of the autonomous acquisition and integration of knowledge. This capacity to learn from experience, analytical observation, and other means, results in a system that can continuously self-improve and thereby offer increased efficiency and effectiveness.
http://www.aaai.org/AITopics/html/machine.html
Google核心
相关链接
分享到:
相关推荐
使用C sharp开发搜索引擎 C#搜索引擎开发实战 02-搜索引擎基础(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 03-网络爬虫(共27页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 02-搜索引擎基础(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 03-网络爬虫(共27页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 02-搜索引擎基础(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 03-网络爬虫(共27页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式...
搜索引擎关键技术之分词介绍,对搜索引擎感兴趣的朋友多多支持。
搜索引擎应用技术-cache技术,hash算法
揭秘搜索引擎技术实战--Lucene%26Java精华版_....pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!
做自己的搜索引擎——搜索引擎精解案例教程--代码
Lucene搜索引擎开发进阶实战----高清版 Lucene搜索引擎开发进阶实战----高清版
搜索引擎技术搜索引擎技术搜索引擎技术搜索引擎技术搜索引擎技术
开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.docx开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.docx开源的搜索引擎工具包和web搜索引擎系统 - austin lius ...
系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案
搜索引擎分析与设计 - 网络小说搜索 协同过滤 搜索引擎分析与设计 - 网络小说搜索 协同过滤 Python 爬虫 Web 搜索相似小说,搜索目标类型小说,个人推荐榜单
请下载---基于内容的图像元搜索引擎技术研究
解密搜索引擎技术实战Lucene&Java精华版(1) 解密搜索引擎技术实战Lucene&Java精华版(2)-补第5章p1 解密搜索引擎技术实战Lucene&Java精华版(3)-补第5章p2 解密搜索引擎技术实战Lucene&Java精华版(4)-补第6章 解密搜索...
使用C sharp开发搜索引擎 C#搜索引擎开发实战 02-搜索引擎基础(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 03-网络爬虫(共27页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式...
lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要...分布式的搜索引擎和分析引擎 分布式,支持 PB 级数据
搜索引擎技术基础
由本人搜集SEO全部学习资料打包而成。 包括: 搜索引擎优化(SEO)知识完全手册.pdf , seo从入门到精通.pdf , SEO教程2007版.pdf , 搜索引擎优化魔法书.pdf , seo.doc等等SEO学习资料
分布式搜索引擎-学习笔记-3