论坛首页 Java企业应用论坛

[原创]美女图片爬虫程序实战!~用技术创造快感!

浏览 27183 次
精华帖 (3) :: 良好帖 (3) :: 新手帖 (3) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-06-27   最后修改:2011-06-28
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以
http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
程序说明:
com.th.spider.Main 运行这个抓取美女图片
com.th.spider.test.* 样例程序
com.th.spider.CookieLogin 模拟登陆实例
com.th.spider.Clean 清除没图片的目录和无效图片目录
 
用技术创造快感!!!! 嘿嘿
 
Email:wellse@qq.com
 

下载资源:
 
网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表
http://www.36mn.com/forum-62-1.html

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html




抓取结果





   发表时间:2011-06-27  
不错,下载下来用用看,
0 请登录后投票
   发表时间:2011-06-27  
有想法,下来试用一吧
0 请登录后投票
   发表时间:2011-06-27  
你是如何分别美女与丑女的呢
0 请登录后投票
   发表时间:2011-06-27   最后修改:2011-06-27
只用看test中的两个例子就明白原理了。另外有必要分这么多class吗?

还有没有通用性啊,要转到其他的网址,必须重新找元素的属性进行修改才能使用。
0 请登录后投票
   发表时间:2011-06-27   最后修改:2011-06-27
目前这个是DEMO版本,如果大家有需求,当然我就会改造一下适应多种环境! 嘿嘿
0 请登录后投票
   发表时间:2011-06-27  
美女都是过眼云烟,兄弟多看开点
0 请登录后投票
   发表时间:2011-06-27  
我晕,你模式识别了,挖到的又不都是美女图!
0 请登录后投票
   发表时间:2011-06-28   最后修改:2011-06-29
可看看这个微博备份工具,技术原理差不多,采用多线程方式备份新浪微博。

http://javadevil.iteye.com/admin/blogs/1105672
0 请登录后投票
   发表时间:2011-06-28  
嘿嘿,几年之前刚毕业那时候上班没啥事的时候做过一个,在公司运行了一个小时,下载了400+Mb的MM图片,然后就被公司网管抓了!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics