最新文章列表

蜘蛛池的原理和实现方法

首先,什么是蜘蛛池。 蜘蛛池是一种通过引导搜索引擎蜘蛛过来并且将搜索引擎蜘蛛困在网站里面的程序。 第二,蜘蛛池的原理。 蜘蛛池是通过搜索引 ...
房子SEO 评论(0) 有771人浏览 2016-07-27 17:53

如何抓取需要验证码的网页?

    最近专门研究了下网页抓取,主要是研究对各种情况的抓取方法。今天张瑜 介绍下需要验证码的网页抓取。         现在有些网页为了防止被抓取,它要求用户先填入验证码后,才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍;因为它不能识别验证码!当然有同学说用OCR去识别,然后填入。这是个方向,但是总有些验证码是机器无法识别的。那我们怎么办?     办法其实还是 ...
Mybeautiful 评论(8) 有7089人浏览 2012-03-20 17:28

【推荐】快所构建实时抓取集群

本人在浏览关于搜索技术的时候在博客发现一篇比较好的抓取架构分享,转来分享给大家!!挺不错!!值得收藏!! 个人站分享:知民网 http://www.jbzhimin.com   定义: 首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特 ...
_www 评论(0) 有103人浏览 2011-12-23 16:01

今天跟蜘蛛们干上了=.= (转)蜘蛛IP是多少?如何查看蜘蛛是否光临

什么是baiduspider? baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。 baiduspider对一个网站服务器造成的访问压力如何? baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情 ...
android_madness 评论(0) 有762人浏览 2011-12-12 14:54

(转)百度蜘蛛来你家了吗

如何查看百度蜘蛛是否来过我的网站,尤其对于长期不收录,百度快照不更新的新站来说,查看百度蜘蛛是否来过我的网站就很重要了,如果蜘蛛没有来,那就不要谈收录了,解决的办法就是尽快引开蜘蛛了,如果蜘蛛爬过了,要检查下网站是否存在一些百度不收录的原因,比如过度优化。以上都没有,就要等了,等百度大更新时,收录自然就有了!那么如何查看百度蜘蛛是否来过我的网站呢? 首先要查看服务器IIS日志,具体操作方法:记事 ...
android_madness 评论(0) 有775人浏览 2011-12-12 14:52

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics