`
geek87
  • 浏览: 7395 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论
阅读更多

瓦力

一个完整的定向小虫,方便大家看小说,呵呵,有完整代码,实例,文档。。还可定制,这仅仅是一个小小的演试.

 

分享到:
评论
80 楼 maomiandyou 2010-02-09  
我最近也做了一个这样的爬虫,我说说我的一个做法,一起讨论
我是这样来实现的
用的第三方组件有:httpclient, htmlparser
用了数据库mysql,swing做的界面

1. 建立了一个数据表,大致结构是这样
-------------------------------
uid  ->  超链接ID
utitle  -> 超链接title
url -> 超链接地址
umd5 -> 超链接地址md5加密.32位

2. 抓取网页的时候从首页开始抓取,先提取网页上面的所有链接,写入数据库,在写入数据库的时候,比对数据库中有没有这条链接,如果没有就写入,有就放弃。

3. 根据这些链接,继续重复操作。

.....................
对于抓取的结果分析不是很满意,全文比配不好做,还有一个就是遇到生僻字会是乱码,记得把字库文件烤到jre里面去
79 楼 tangmi 2010-01-26  
估计你也没有通用的
78 楼 comsci 2009-12-01  
geek87 写道
xiaoyu64814361 写道
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···

不就是图片识别嘛。。AI,,呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。

如果要做成分布式的话,需要做什么样的修改呢? 搜索爬虫如果要真正有应用价值,至少要并行爬行才行哦,要不然效率和数据量都不足以满足企业和用户的需求
77 楼 geek87 2009-11-29  
xiaoyu64814361 写道
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···

不就是图片识别嘛。。AI,,呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。
76 楼 xiaoyu64814361 2009-09-25  
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···
75 楼 tigerliang 2009-07-15  
好东西,学习下。
74 楼 pwg17 2009-06-27  
所有针对特定的一两个网站的抓取都是简单的。
爬虫可以说是简单的,仅仅是下载网页。
也可以说是复杂的,怎么多线程,分布式的情况下多个爬虫怎么控制,负载均衡用什么策略,并发怎样,怎样才能不给对方服务器造成压力以避免对方封IP,怎么识别抓取回来的网页编码,海量URL怎么排重,怎么识别列表页面和领域页面(垂直爬虫所对应的领域)。
所以说楼主放出的这个,楼上有的朋友说的没错,玩票性质。楼主别见怪:p
还有,页面信息抽取不应该放在爬虫这里,爬虫应该追求快速,简单。应单独写一个模块或接口来抽取。
有感而发,楼主别怪。欢迎交流。
73 楼 src_bord 2009-06-26  
   作为一个初级程序员的我,还没接触过网络爬虫之类的东西,看来是得要好好学学咯!
72 楼 hoocy 2009-06-17  
还没明白这个是干嘛使的?
71 楼 ice123456 2009-06-17  
  简单看了一下代码, 基本上不通用

public void loadConfig(String path)
	{
		if (isNeedLoadConfig)
		{
			try
			{
				Map map = new HashMap();
				PropertiesFactory.loadPropertiesFile(map, path);
				String temp = new String();
				encoding = (String)map.get("encoding");
				res_list_beginPoint = (String)map.get("res_list_beginPoint");
				res_list_endPoint = (String)map.get("res_list_endPoint");
				regex_book = (String)map.get("regex_book");
				regex_book_debar = (String)map.get("regex_book_debar");
				temp = (String)map.get("book_id_index");
				if (temp != null)
					book_id_index = Integer.parseInt(temp);
				temp = (String)map.get("book_name_index");
				if (temp != null)
					book_name_index = Integer.parseInt(temp);
				temp = (String)map.get("book_author_index");
				if (temp != null)
					book_author_index = Integer.parseInt(temp);
				temp = (String)map.get("sleep_time");
				if (temp != null)
					sleep_time = Long.parseLong(temp);
				base_img_url = (String)map.get("base_img_url");
				base_file_url = (String)map.get("base_file_url");
			}
			catch (Exception e)
			{
				e.printStackTrace();
			}
			isNeedLoadConfig = false;
		}
	}

	public List parseBooks(String url)
		throws IOException, InterruptedException
	{
		List list = new ArrayList();
		String s = new String();
		s = getOneHtml(url, encoding);
		List bs = getContentsByRegexAndDebar(regex_book, regex_book_debar, s);
		String bookId = new String();
		String name = new String();
		String author = new String();
		String txtUrl = new String();
		String imgUrl = new String();
		for (int i = 0; i < bs.size(); i++)
		{
			Thread.sleep(sleep_time);
			s = (String)bs.get(i);
			String g[] = s.split(",");
			bookId = g[book_id_index];
			name = g[book_name_index];
			author = g[book_author_index];
			txtUrl = (new StringBuilder(String.valueOf(base_file_url))).append(bookId).append(".txt").toString();
			imgUrl = (new StringBuilder(String.valueOf(base_img_url))).append(bookId).append(".jpg").toString();
			Book book = new Book();
			book.setBookId(bookId);
			book.setName(name);
			book.setAuthor(author);
			book.setTxtUrl(txtUrl);
			book.setImgUrl(imgUrl);
			list.add(book);
		}

		return list;
	}


如果我需要换一个怎么办??

  建议做成接口或读取xml信息来,存放到数据库或其他位置


建议去试试httpclient 
70 楼 ice123456 2009-06-17  
  感觉功能不是很完善
 
1, 只做了一些简单抓取功能,  不能多线程
2, 如果网站需要登陆后抓取怎么办?
3, 不支持https
69 楼 tobeno1 2009-06-17  
谢谢,你太厉害了
68 楼 ostrichmyself 2009-05-19  
geek87 写道
谢谢大家支持,我会继续努力,HTmlparse 说真的一些东西 太标准,往往会产生很多错误,比如某个页面少了标签结束,,这个标准的东西去解析就over了,还国内的网站给出的RSS页面,我用一些 Rome解析,根本解析不了,一点也不标准,,所以迫于无奈自己DIY吧。。


看了一下代码, 较普通,不过LZ的想法是很不错的。

抓取和解析的代码建议好好重构一把。

另外, 这东西可以做得更通用一些。

不限于抓取某个网站。某类应用【还可以扩展到数码等其它产品】

搜索的结果建议保存成xml或者数据库。

因为你往下继续开拓应用: 爬虫和结果显示【比如你提到的GUI】的应用可以分开。

十天半个月更新一次爬虫的结果都可以。



BTW,用GOOGLE APP发布一下你的应用, 效果肯定不错的。

加油~




67 楼 airport 2009-05-18  
光是一个爬虫,用Httpclient 4行代码就能下来一个网页了。

关键是之后的事情和通用性。
66 楼 JeffreyHsu 2009-05-18  
楼主对某些采取反扒取技术网站有相应的对策么?

比如频繁访问会被封IP
有没有分布式的设计考虑?

我最近写了个python的爬虫,有空交流一下
65 楼 geek87 2009-05-14  
谢谢大家支持,我会继续努力,HTmlparse 说真的一些东西 太标准,往往会产生很多错误,比如某个页面少了标签结束,,这个标准的东西去解析就over了,还国内的网站给出的RSS页面,我用一些 Rome解析,根本解析不了,一点也不标准,,所以迫于无奈自己DIY吧。。
64 楼 wangyazhen 2009-05-14  
感觉功能还是很差,说实话,反编译后发现东西还是很粗糙的,建议使用HTmlparse和neroHtml解析页面,爬虫的控制可以借用Heritrix,也可以自己写个简单的更加DIY!对于爬虫的控制还涉及到关键字提取等等相关复杂的东西,想要做简单点,先不管这个
63 楼 geek87 2009-05-13  
<div class="quote_title">java.lang.Object 写道</div>
<div class="quote_div">
<p>有些代码写得可有点那个哦。</p>
<p>首先看看PropertiesFactory类的代码,并且这个类也不能这样叫,最好只能叫ProperiesUtil类吧。StringFactory类也一样,最多也只能叫StringUtil类吧。</p>
<p> </p>
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
  {
    Properties prop = new Properties();
    FileInputStream fin = null;
    try {
      fin = new FileInputStream(path);
      prop.load(fin);
      map.putAll(prop);
    }
    catch (FileNotFoundException e) {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    catch (IOException e)
    {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    finally
    {
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    return map;
  }</pre>
<p> 一个流被反反复复关了这么多次,虽然说可以重复关闭,但是有一个finally块不就可以了吗,并且你也应该判断一个fin是否为null,否则从finally块的抛出的空指针异常就不太好了。</p>
<p> </p>
<p>我们再看看StringFactory类的方法。</p>
<pre name="code" class="java">public static boolean chk(String regex, String s)
  {
    if ((s == null) || (s.trim().length() &lt; 0))
      return false;

    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(s.trim());
    return m.find();
  }</pre>
<p> 首先chk的命名就不太规范了,chk和check差几个字母呢,有必要这样省不?</p>
<p>还有,s.trim().length()有可能会小于0吗?最少的情况下也就是空字符串也就是等于0吧。</p>
<p> </p>
<p>其他的类也有问题,如果楼主说这个东西是商业项目的话,我就觉得有点那个了。</p>
<p> </p>
<p> </p>
</div>
<p> </p>
<p>谢谢 指点</p>
62 楼 ansjsun 2009-05-13  
不说啥了..咱们组织开源项目吧..弄个爬虫嘿嘿..只要是开源项目hello Word 我都参加
61 楼 java.lang.Object 2009-05-13  
<p>有些代码写得可有点那个哦。</p>
<p>首先看看PropertiesFactory类的代码,并且这个类也不能这样叫,最好只能叫ProperiesUtil类吧。StringFactory类也一样,最多也只能叫StringUtil类吧。</p>
<p> </p>
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
  {
    Properties prop = new Properties();
    FileInputStream fin = null;
    try {
      fin = new FileInputStream(path);
      prop.load(fin);
      map.putAll(prop);
    }
    catch (FileNotFoundException e) {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    catch (IOException e)
    {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    finally
    {
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    return map;
  }</pre>
<p> 一个流被反反复复关了这么多次,虽然说可以重复关闭,但是有一个finally块不就可以了吗,并且你也应该判断一个fin是否为null,否则从finally块的抛出的空指针异常就不太好了。</p>
<p> </p>
<p>我们再看看StringFactory类的方法。</p>
<pre name="code" class="java">public static boolean chk(String regex, String s)
  {
    if ((s == null) || (s.trim().length() &lt; 0))
      return false;

    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(s.trim());
    return m.find();
  }</pre>
<p> 首先chk的命名就不太规范了,chk和check差几个字母呢,有必要这样省不?</p>
<p>还有,s.trim().length()有可能会小于0吗?最少的情况下也就是空字符串也就是等于0吧。</p>
<p> </p>
<p>其他的类也有问题,如果楼主说这个东西是商业项目的话,我就觉得有点那个了。</p>
<p> </p>
<p> </p>

相关推荐

Global site tag (gtag.js) - Google Analytics