定向爬虫瓦力

geek87

浏览: 7845 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

UI 网络应用应用服务器百度正则表达式

一个完整的定向小虫，方便大家看小说，呵呵，有完整代码，实例，文档。。还可定制,这仅仅是一个小小的演试.

Wall.e网虫.rar (2.3 MB)
下载次数: 6997

分享到：

java io流

2009-05-09 09:41
浏览 3972
评论(80)
论坛回复 / 浏览 (78 / 35030)
分类:企业架构
查看更多

80 楼 maomiandyou 2010-02-09

我最近也做了一个这样的爬虫，我说说我的一个做法，一起讨论
我是这样来实现的
用的第三方组件有：httpclient, htmlparser
用了数据库mysql，swing做的界面

1. 建立了一个数据表,大致结构是这样
-------------------------------
uid -> 超链接ID
utitle -> 超链接title
url -> 超链接地址
umd5 -> 超链接地址md5加密.32位

2. 抓取网页的时候从首页开始抓取，先提取网页上面的所有链接，写入数据库，在写入数据库的时候，比对数据库中有没有这条链接，如果没有就写入，有就放弃。

3. 根据这些链接，继续重复操作。

.....................
对于抓取的结果分析不是很满意，全文比配不好做，还有一个就是遇到生僻字会是乱码，记得把字库文件烤到jre里面去

79 楼 tangmi 2010-01-26

估计你也没有通用的

78 楼 comsci 2009-12-01

geek87 写道

xiaoyu64814361 写道

geek87 写道

xiaoyu64814361 写道

geek87 写道

不知道，哪位有没有兴趣给加上，UI，做成一个产品，真正方便大家。。看小说，下载到手机，MP3，MP4上去

哥们你这个东西还差得太远了···

来自越南的哥们，，自己没做过不要说别人嘛。。

你怎么就知道我没有做过呢？你这个东西非常简单又没有伪装成一个浏览器，一下就被新浪网站给发现直接out出去了，兄弟，又没有自动登陆的，更别说图片识别啥的了。你的这个东西只是个玩具而已啦，要做到非常牛的那种还需要几年的时间呢···

不就是图片识别嘛。。AI，，呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。

如果要做成分布式的话，需要做什么样的修改呢？搜索爬虫如果要真正有应用价值，至少要并行爬行才行哦，要不然效率和数据量都不足以满足企业和用户的需求

77 楼 geek87 2009-11-29

xiaoyu64814361 写道

geek87 写道

xiaoyu64814361 写道

geek87 写道

不知道，哪位有没有兴趣给加上，UI，做成一个产品，真正方便大家。。看小说，下载到手机，MP3，MP4上去

哥们你这个东西还差得太远了···

来自越南的哥们，，自己没做过不要说别人嘛。。

不就是图片识别嘛。。AI，，呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。

76 楼 xiaoyu64814361 2009-09-25

geek87 写道

xiaoyu64814361 写道

geek87 写道

不知道，哪位有没有兴趣给加上，UI，做成一个产品，真正方便大家。。看小说，下载到手机，MP3，MP4上去

哥们你这个东西还差得太远了···

来自越南的哥们，，自己没做过不要说别人嘛。。

75 楼 tigerliang 2009-07-15

好东西，学习下。

74 楼 pwg17 2009-06-27

所有针对特定的一两个网站的抓取都是简单的。
爬虫可以说是简单的，仅仅是下载网页。
也可以说是复杂的，怎么多线程，分布式的情况下多个爬虫怎么控制，负载均衡用什么策略，并发怎样，怎样才能不给对方服务器造成压力以避免对方封IP，怎么识别抓取回来的网页编码，海量URL怎么排重，怎么识别列表页面和领域页面（垂直爬虫所对应的领域）。
所以说楼主放出的这个，楼上有的朋友说的没错，玩票性质。楼主别见怪:p
还有，页面信息抽取不应该放在爬虫这里，爬虫应该追求快速，简单。应单独写一个模块或接口来抽取。
有感而发，楼主别怪。欢迎交流。

73 楼 src_bord 2009-06-26

作为一个初级程序员的我,还没接触过网络爬虫之类的东西,看来是得要好好学学咯！

72 楼 hoocy 2009-06-17

还没明白这个是干嘛使的？

71 楼 ice123456 2009-06-17

简单看了一下代码, 基本上不通用

public void loadConfig(String path)
	{
		if (isNeedLoadConfig)
		{
			try
			{
				Map map = new HashMap();
				PropertiesFactory.loadPropertiesFile(map, path);
				String temp = new String();
				encoding = (String)map.get("encoding");
				res_list_beginPoint = (String)map.get("res_list_beginPoint");
				res_list_endPoint = (String)map.get("res_list_endPoint");
				regex_book = (String)map.get("regex_book");
				regex_book_debar = (String)map.get("regex_book_debar");
				temp = (String)map.get("book_id_index");
				if (temp != null)
					book_id_index = Integer.parseInt(temp);
				temp = (String)map.get("book_name_index");
				if (temp != null)
					book_name_index = Integer.parseInt(temp);
				temp = (String)map.get("book_author_index");
				if (temp != null)
					book_author_index = Integer.parseInt(temp);
				temp = (String)map.get("sleep_time");
				if (temp != null)
					sleep_time = Long.parseLong(temp);
				base_img_url = (String)map.get("base_img_url");
				base_file_url = (String)map.get("base_file_url");
			}
			catch (Exception e)
			{
				e.printStackTrace();
			}
			isNeedLoadConfig = false;
		}
	}

	public List parseBooks(String url)
		throws IOException, InterruptedException
	{
		List list = new ArrayList();
		String s = new String();
		s = getOneHtml(url, encoding);
		List bs = getContentsByRegexAndDebar(regex_book, regex_book_debar, s);
		String bookId = new String();
		String name = new String();
		String author = new String();
		String txtUrl = new String();
		String imgUrl = new String();
		for (int i = 0; i < bs.size(); i++)
		{
			Thread.sleep(sleep_time);
			s = (String)bs.get(i);
			String g[] = s.split(",");
			bookId = g[book_id_index];
			name = g[book_name_index];
			author = g[book_author_index];
			txtUrl = (new StringBuilder(String.valueOf(base_file_url))).append(bookId).append(".txt").toString();
			imgUrl = (new StringBuilder(String.valueOf(base_img_url))).append(bookId).append(".jpg").toString();
			Book book = new Book();
			book.setBookId(bookId);
			book.setName(name);
			book.setAuthor(author);
			book.setTxtUrl(txtUrl);
			book.setImgUrl(imgUrl);
			list.add(book);
		}

		return list;
	}

如果我需要换一个怎么办??

建议做成接口或读取xml信息来,存放到数据库或其他位置

建议去试试httpclient

70 楼 ice123456 2009-06-17

感觉功能不是很完善

1, 只做了一些简单抓取功能, 不能多线程
2, 如果网站需要登陆后抓取怎么办?
3, 不支持https

69 楼 tobeno1 2009-06-17

谢谢，你太厉害了

68 楼 ostrichmyself 2009-05-19

geek87 写道

谢谢大家支持，我会继续努力，HTmlparse 说真的一些东西太标准，往往会产生很多错误，比如某个页面少了标签结束，，这个标准的东西去解析就over了，还国内的网站给出的RSS页面，我用一些 Rome解析，根本解析不了，一点也不标准，，所以迫于无奈自己DIY吧。。

看了一下代码，较普通，不过LZ的想法是很不错的。

抓取和解析的代码建议好好重构一把。

另外，这东西可以做得更通用一些。

不限于抓取某个网站。某类应用【还可以扩展到数码等其它产品】

搜索的结果建议保存成xml或者数据库。

因为你往下继续开拓应用：爬虫和结果显示【比如你提到的GUI】的应用可以分开。

十天半个月更新一次爬虫的结果都可以。

BTW，用GOOGLE APP发布一下你的应用，效果肯定不错的。

加油～

67 楼 airport 2009-05-18

光是一个爬虫，用Httpclient 4行代码就能下来一个网页了。

关键是之后的事情和通用性。

66 楼 JeffreyHsu 2009-05-18

楼主对某些采取反扒取技术网站有相应的对策么？

比如频繁访问会被封IP
有没有分布式的设计考虑？

我最近写了个python的爬虫，有空交流一下

65 楼 geek87 2009-05-14

64 楼 wangyazhen 2009-05-14

感觉功能还是很差，说实话，反编译后发现东西还是很粗糙的，建议使用HTmlparse和neroHtml解析页面，爬虫的控制可以借用Heritrix，也可以自己写个简单的更加DIY！对于爬虫的控制还涉及到关键字提取等等相关复杂的东西，想要做简单点，先不管这个

63 楼 geek87 2009-05-13

<div class="quote_title">java.lang.Object 写道</div>
<div class="quote_div">
有些代码写得可有点那个哦。
首先看看PropertiesFactory类的代码，并且这个类也不能这样叫，最好只能叫ProperiesUtil类吧。StringFactory类也一样，最多也只能叫StringUtil类吧。
 
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
{
 Properties prop = new Properties();
 FileInputStream fin = null;
 try {
 fin = new FileInputStream(path);
 prop.load(fin);
 map.putAll(prop);
 }
 catch (FileNotFoundException e) {
 e.printStackTrace();
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 catch (IOException e)
 {
 e.printStackTrace();
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 finally
 {
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 return map;
}</pre>
 一个流被反反复复关了这么多次，虽然说可以重复关闭，但是有一个finally块不就可以了吗，并且你也应该判断一个fin是否为null，否则从finally块的抛出的空指针异常就不太好了。
 
我们再看看StringFactory类的方法。
<pre name="code" class="java">public static boolean chk(String regex, String s)
{
 if ((s == null) || (s.trim().length() < 0))
 return false;

 Pattern p = Pattern.compile(regex);
 Matcher m = p.matcher(s.trim());
 return m.find();
}</pre>
 首先chk的命名就不太规范了，chk和check差几个字母呢，有必要这样省不？
还有，s.trim().length()有可能会小于0吗？最少的情况下也就是空字符串也就是等于0吧。
 
其他的类也有问题，如果楼主说这个东西是商业项目的话，我就觉得有点那个了。
 
 
</div>
 
谢谢指点

62 楼 ansjsun 2009-05-13

不说啥了..咱们组织开源项目吧..弄个爬虫嘿嘿..只要是开源项目hello Word 我都参加

61 楼 java.lang.Object 2009-05-13

有些代码写得可有点那个哦。
首先看看PropertiesFactory类的代码，并且这个类也不能这样叫，最好只能叫ProperiesUtil类吧。StringFactory类也一样，最多也只能叫StringUtil类吧。
 
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
{
 Properties prop = new Properties();
 FileInputStream fin = null;
 try {
 fin = new FileInputStream(path);
 prop.load(fin);
 map.putAll(prop);
 }
 catch (FileNotFoundException e) {
 e.printStackTrace();
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 catch (IOException e)
 {
 e.printStackTrace();
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 finally
 {
 try
 {
 fin.close();
 }
 catch (IOException e) {
 e.printStackTrace();
 }
 }
 return map;
}</pre>
 一个流被反反复复关了这么多次，虽然说可以重复关闭，但是有一个finally块不就可以了吗，并且你也应该判断一个fin是否为null，否则从finally块的抛出的空指针异常就不太好了。
 
我们再看看StringFactory类的方法。
<pre name="code" class="java">public static boolean chk(String regex, String s)
{
 if ((s == null) || (s.trim().length() < 0))
 return false;

 Pattern p = Pattern.compile(regex);
 Matcher m = p.matcher(s.trim());
 return m.find();
}</pre>
 首先chk的命名就不太规范了，chk和check差几个字母呢，有必要这样省不？
还有，s.trim().length()有可能会小于0吗？最少的情况下也就是空字符串也就是等于0吧。
 
其他的类也有问题，如果楼主说这个东西是商业项目的话，我就觉得有点那个了。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论