`
不见得
  • 浏览: 11738 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

Spider Spider ! Go Go Go

阅读更多

先贴一个以前写的热热身

写道
以前自己发的,今天转到blog这里来了,。。。。
今天很生气 , 早晨收到 lunarpages 的一封信 , 说我的程序 占用了 那个 机器 的100% cpu ,给停了 。。。。
Top Process %CPU 59.3 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 32.1 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 21.7 /usr/local/bin/ruby ***/dispatch.fcgi

这个看这挺暴力的吧 !!!

打开日志一查 , 都T**是来自 124.115.*.* 的 soso 的 spider ,

soso 你来就来吧 , 拜托你参考 一下 robots.txt , 结果 这哥全不管这一套 , 页面上该搜的不改搜的全都招呼 。。。。。

全招呼就全招呼吧 , 您总得慢点吧 , 一堆链接 , 搜得速度那叫一个快 ,,,

拜托 soso大哥 你有点专业精神 , 你以为把我的cpu 用成 100%  就能超过 baidu google 了 ?????

以上完全属实 , 所以日志 我都备份了 。。。。。。。。。 , soso 你不要说我诽谤你 。。。。。。。。

也不要怪我这样屏蔽你 deny from 124.115.

你不要来了! 马化腾 , 你叫我怎么尊敬你。。。。。。。




令一个不爽的就是 就是 lunarpages 的 IT Team , 感觉怎么跟  soso 那么业余呢 ?????
让他们干还不如让我来 , 只好自己动手了,。。。。。。

 

  呵呵 ,以前那个soso 的 spider 给屏蔽了

 

  最近又发现一个 Spider , 比上面的还不要face , 为啥呢各位看看吧!

写道
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /ialbum/422/4 HTTP/1.1" 200 722 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /incoming/all/4 HTTP/1.1" 200 722 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "GET /album/66/12 HTTP/1.1" 200 4413 "http://www.bujiande.com/album/66/12" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /ialbum/422/4 HTTP/1.1" 200 4560 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /incoming/all/4 HTTP/1.1" 200 7847 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

 

居然连自己是爬虫 都不标一下 , 装MSIE的孙子 , 有没有点儿职业道德呀!

 

给大家看个正经的爬虫, 挑个Baidu 的 吧, 比较下:

写道
220.181.32.26 - - [15/Aug/2008:08:32:05 -0700] "GET /incoming/cartoon HTTP/1.1" 200 8603 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
 

这个 58.61访问密度大 , 访问强度高 跟 soso 有一拼了 , 我站上也没有什么内容呀!

 

这个共享的机器 , 不想给别人找麻烦 , 求求你 , 别来了 , 也不想给机器填那么多的负担  对了 , 他是机器人 , 还是听不懂人话的机器人 , 还是我自己动手吧!

deny from 58.61 , 从此 , 世界又可以清静一下了,

后来问了一下 ,这些还是腾讯的机器人们 ,   化腾兄 , 强人呀 , 您的机器人都那么华腾!

 

突然有个恶念 , 要是所有的网站都如我这样 , 这些 华腾的 spiders 该如何呢 :)

<Files 403.shtml>
  order allow,deny
  allow from all
</Files>
deny from 124.115.
deny from 58.61.164.
 

 

 

 

分享到:
评论

相关推荐

    Go爬虫框架go_spider.zip

    本项目基于golang开发,是一个开放的垂直领域的爬虫框架,框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),...

    go_spider爬虫框架

    [爬虫框架 (golang)] An awesome Go concurrent Crawler(spider) framework. The crawler is flexible and modular. It can be expanded to a Individualized crawler easily or can only use the default crawl ...

    go-spider Go 爬虫框架

    本项目基于 golang 开发,是一个开放的垂直领域的爬虫框架.框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 执行过程简述: Spider模块从Scheduler模块中获取包含待抓取url...

    go语言实现百度云爬虫

    go run spider.go (当然也可以编译后运行,此时config.ini记得也复制到编译后的文件目录下,然后运行) 直接下载编译好的使用 下载适合自己系统的版本 修改config.ini配置文件,并且放到程序运行的目录下 linux: chmod...

    go-spider:一个灵活的蜘蛛以及一个通用的任务运行器

    "github.com/ddliu/go-spider" // Import a lot of useful pipes "github.com/ddliu/go-spider/pipes" ) func main () { // Create a spider s := spider . NewSpider () // Config it s . Concurrency = 3 ...

    distributed-spider:高朗(Golang分布式爬虫项目。)

    这是带有Golang的分布式爬虫系统。

    leetcode下载-leetcode-spider-go:leetcode-蜘蛛去

    leetcode-spider-go 使用 Go 编写的 leetcode 解题源码爬虫.爬取你自己的 leetcode 解题源码. 如果你也想把你在 上提交且 accepted 的解题代码爬下来,那么本工具就是为此需求而生!爬下来的代码可以放在 github 上...

    gospider::high_voltage: Light weight Golang spider framework | 轻量的 Golang 爬虫框架

    Gospider是一个轻量友好的的Go爬虫框架。 Gospider在管理网络请求方面使用了Goreq。 ‌这样分割项目使功能划分更加明确,Gospider负责管理调度任务,Goreq负责处理网络请求。 在Gospider中的goreq.Request、goreq....

    article-spider:文章爬取工具

    article-spider是一个用go编写的爬取文章工具。安装git clone 开始使用爬取文字package mainimport ("article-spider/fileTypes""article-spider/form""article-spider/spider")func main() {f := form.Form{Host: ...

    GolangSpider:Golang的爬虫程序,爬图片

    GolangSpider Golang的爬虫程序,爬图片

    开源项目-celrenheit-spider.zip

    开源项目-celrenheit-spider.zip,spider的调度程序,用于抓取和解析go中编写的html和json页面

    perch:基于Golang的微服务平台,vue和golang管理员

    基于colly的go语言爬虫开发 基于grpc的分布式服务调用和任务分配 项目主要目的是对自己的技能的总结和部分想法的实现。目前项目部署实例为部署方式为部署中以kubernete容器方式进行部署。采用到的kubernetes资源有 ...

    spider-blog:博客爬虫

    简单爬虫 最近比较闲,爬些感兴趣的博文来看(python golang等) 关键字 因为blog网站自带搜索过滤关键字功能,所以省去了关键字匹配 python(可在url里替换) 来源 oschina ...csdn ...http://www.v2ex.com/go/python?p=1 ...

    Scrago:一个简单的go并发爬虫 A simple concurrcy spider with go

    scrago一个简单的go并发爬虫框架 A simple concurrcy spider with go##介绍##简单使用func main() {//创建一个控制器,这里有4个必须给与的参数://爬取的初始url,爬取深度,解析函数,储存函数//basic.InitConfig...

    gospider:Gospider-用Go编写的快速网络蜘蛛

    S3 从响应源中查找子域从Wayback Machine,常见抓取,总计病毒,外星人保管库获取URL 格式输出易于Grep 支持打p输入并行抓取多个站点随机移动/网络用户代理展示柜用法Fast web spider written in Go - v1.1.2 by @...

    concurrent_spider.rar

    golang 简单实现并发版爬虫,压缩包中包含有代码工作流程图,先看流程图,在看代码,简单易懂,希望这个小项目对你有所帮助

    go_jobs:带你了解一下Golang的市场行情

    了解一下Golang的市场行情 项目地址: : 如果对你有所帮助,欢迎Star,图床使用的是国外的,如果看不到图片的话你可能需要翻墙。 目标 在工作中Golang已是一个子,想让大家了解一下Golang的市场行情,也想让更多的...

    pholcus:Pholcus是用纯golang编写的分布式高并发爬虫软件

    菲尔库斯 Pholcus(幽灵蛛)是一种纯Go语言编写的支持分布式的高并发爬虫软件,仅用于编程学习与研究。它支持单机,服务端,客户端三种运行模式,拥有Web,GUI,命令行界面操作界面;规则简单灵活,批量任务并发,...

    go-demo:Go语言实例教程从入门到进阶,包括基础库使用,设计模式,面试易错点,工具类,对接第三方等

    Go语言学习 :Go语言基础 :性能分析 :Go实现常用设计模式 :Go面试题及详解 :转到对接第三方工具(mqtt,elastic,kafka ...) :GoWeb开发常用工具类 :去实现一个简单的区块链 :Go实现内网穿透工具 :...

    spider.zip

    通过go语言爬取新版正方教务系统成绩。主要流程有模拟登陆和爬取成绩数据。。

Global site tag (gtag.js) - Google Analytics