`
geek87
  • 浏览: 7844 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论
阅读更多

瓦力

一个完整的定向小虫,方便大家看小说,呵呵,有完整代码,实例,文档。。还可定制,这仅仅是一个小小的演试.

 

分享到:
评论
80 楼 maomiandyou 2010-02-09  
我最近也做了一个这样的爬虫,我说说我的一个做法,一起讨论
我是这样来实现的
用的第三方组件有:httpclient, htmlparser
用了数据库mysql,swing做的界面

1. 建立了一个数据表,大致结构是这样
-------------------------------
uid  ->  超链接ID
utitle  -> 超链接title
url -> 超链接地址
umd5 -> 超链接地址md5加密.32位

2. 抓取网页的时候从首页开始抓取,先提取网页上面的所有链接,写入数据库,在写入数据库的时候,比对数据库中有没有这条链接,如果没有就写入,有就放弃。

3. 根据这些链接,继续重复操作。

.....................
对于抓取的结果分析不是很满意,全文比配不好做,还有一个就是遇到生僻字会是乱码,记得把字库文件烤到jre里面去
79 楼 tangmi 2010-01-26  
估计你也没有通用的
78 楼 comsci 2009-12-01  
geek87 写道
xiaoyu64814361 写道
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···

不就是图片识别嘛。。AI,,呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。

如果要做成分布式的话,需要做什么样的修改呢? 搜索爬虫如果要真正有应用价值,至少要并行爬行才行哦,要不然效率和数据量都不足以满足企业和用户的需求
77 楼 geek87 2009-11-29  
xiaoyu64814361 写道
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···

不就是图片识别嘛。。AI,,呵呵。你说的没错。。我这里展示的就是个玩具。。真家伙没拿出来。。
76 楼 xiaoyu64814361 2009-09-25  
geek87 写道
xiaoyu64814361 写道
geek87 写道
不知道,哪位有没有兴趣给加上,UI,做成一个产品,真正方便大家。。看小说,下载到手机,MP3,MP4上去

   哥们你这个东西还差得太远了···

来自越南的哥们,,自己没做过不要说别人嘛。。

      你怎么就知道我没有做过呢?  你这个东西非常简单又没有伪装成一个浏览器,一下就被新浪网站给发现直接out出去了,兄弟,又没有自动登陆的,更别说图片识别啥的了。你的这个东西只是个玩具而已啦,要做到非常牛的那种还需要几年的时间呢···
75 楼 tigerliang 2009-07-15  
好东西,学习下。
74 楼 pwg17 2009-06-27  
所有针对特定的一两个网站的抓取都是简单的。
爬虫可以说是简单的,仅仅是下载网页。
也可以说是复杂的,怎么多线程,分布式的情况下多个爬虫怎么控制,负载均衡用什么策略,并发怎样,怎样才能不给对方服务器造成压力以避免对方封IP,怎么识别抓取回来的网页编码,海量URL怎么排重,怎么识别列表页面和领域页面(垂直爬虫所对应的领域)。
所以说楼主放出的这个,楼上有的朋友说的没错,玩票性质。楼主别见怪:p
还有,页面信息抽取不应该放在爬虫这里,爬虫应该追求快速,简单。应单独写一个模块或接口来抽取。
有感而发,楼主别怪。欢迎交流。
73 楼 src_bord 2009-06-26  
   作为一个初级程序员的我,还没接触过网络爬虫之类的东西,看来是得要好好学学咯!
72 楼 hoocy 2009-06-17  
还没明白这个是干嘛使的?
71 楼 ice123456 2009-06-17  
  简单看了一下代码, 基本上不通用

public void loadConfig(String path)
	{
		if (isNeedLoadConfig)
		{
			try
			{
				Map map = new HashMap();
				PropertiesFactory.loadPropertiesFile(map, path);
				String temp = new String();
				encoding = (String)map.get("encoding");
				res_list_beginPoint = (String)map.get("res_list_beginPoint");
				res_list_endPoint = (String)map.get("res_list_endPoint");
				regex_book = (String)map.get("regex_book");
				regex_book_debar = (String)map.get("regex_book_debar");
				temp = (String)map.get("book_id_index");
				if (temp != null)
					book_id_index = Integer.parseInt(temp);
				temp = (String)map.get("book_name_index");
				if (temp != null)
					book_name_index = Integer.parseInt(temp);
				temp = (String)map.get("book_author_index");
				if (temp != null)
					book_author_index = Integer.parseInt(temp);
				temp = (String)map.get("sleep_time");
				if (temp != null)
					sleep_time = Long.parseLong(temp);
				base_img_url = (String)map.get("base_img_url");
				base_file_url = (String)map.get("base_file_url");
			}
			catch (Exception e)
			{
				e.printStackTrace();
			}
			isNeedLoadConfig = false;
		}
	}

	public List parseBooks(String url)
		throws IOException, InterruptedException
	{
		List list = new ArrayList();
		String s = new String();
		s = getOneHtml(url, encoding);
		List bs = getContentsByRegexAndDebar(regex_book, regex_book_debar, s);
		String bookId = new String();
		String name = new String();
		String author = new String();
		String txtUrl = new String();
		String imgUrl = new String();
		for (int i = 0; i < bs.size(); i++)
		{
			Thread.sleep(sleep_time);
			s = (String)bs.get(i);
			String g[] = s.split(",");
			bookId = g[book_id_index];
			name = g[book_name_index];
			author = g[book_author_index];
			txtUrl = (new StringBuilder(String.valueOf(base_file_url))).append(bookId).append(".txt").toString();
			imgUrl = (new StringBuilder(String.valueOf(base_img_url))).append(bookId).append(".jpg").toString();
			Book book = new Book();
			book.setBookId(bookId);
			book.setName(name);
			book.setAuthor(author);
			book.setTxtUrl(txtUrl);
			book.setImgUrl(imgUrl);
			list.add(book);
		}

		return list;
	}


如果我需要换一个怎么办??

  建议做成接口或读取xml信息来,存放到数据库或其他位置


建议去试试httpclient 
70 楼 ice123456 2009-06-17  
  感觉功能不是很完善
 
1, 只做了一些简单抓取功能,  不能多线程
2, 如果网站需要登陆后抓取怎么办?
3, 不支持https
69 楼 tobeno1 2009-06-17  
谢谢,你太厉害了
68 楼 ostrichmyself 2009-05-19  
geek87 写道
谢谢大家支持,我会继续努力,HTmlparse 说真的一些东西 太标准,往往会产生很多错误,比如某个页面少了标签结束,,这个标准的东西去解析就over了,还国内的网站给出的RSS页面,我用一些 Rome解析,根本解析不了,一点也不标准,,所以迫于无奈自己DIY吧。。


看了一下代码, 较普通,不过LZ的想法是很不错的。

抓取和解析的代码建议好好重构一把。

另外, 这东西可以做得更通用一些。

不限于抓取某个网站。某类应用【还可以扩展到数码等其它产品】

搜索的结果建议保存成xml或者数据库。

因为你往下继续开拓应用: 爬虫和结果显示【比如你提到的GUI】的应用可以分开。

十天半个月更新一次爬虫的结果都可以。



BTW,用GOOGLE APP发布一下你的应用, 效果肯定不错的。

加油~




67 楼 airport 2009-05-18  
光是一个爬虫,用Httpclient 4行代码就能下来一个网页了。

关键是之后的事情和通用性。
66 楼 JeffreyHsu 2009-05-18  
楼主对某些采取反扒取技术网站有相应的对策么?

比如频繁访问会被封IP
有没有分布式的设计考虑?

我最近写了个python的爬虫,有空交流一下
65 楼 geek87 2009-05-14  
谢谢大家支持,我会继续努力,HTmlparse 说真的一些东西 太标准,往往会产生很多错误,比如某个页面少了标签结束,,这个标准的东西去解析就over了,还国内的网站给出的RSS页面,我用一些 Rome解析,根本解析不了,一点也不标准,,所以迫于无奈自己DIY吧。。
64 楼 wangyazhen 2009-05-14  
感觉功能还是很差,说实话,反编译后发现东西还是很粗糙的,建议使用HTmlparse和neroHtml解析页面,爬虫的控制可以借用Heritrix,也可以自己写个简单的更加DIY!对于爬虫的控制还涉及到关键字提取等等相关复杂的东西,想要做简单点,先不管这个
63 楼 geek87 2009-05-13  
<div class="quote_title">java.lang.Object 写道</div>
<div class="quote_div">
<p>有些代码写得可有点那个哦。</p>
<p>首先看看PropertiesFactory类的代码,并且这个类也不能这样叫,最好只能叫ProperiesUtil类吧。StringFactory类也一样,最多也只能叫StringUtil类吧。</p>
<p> </p>
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
  {
    Properties prop = new Properties();
    FileInputStream fin = null;
    try {
      fin = new FileInputStream(path);
      prop.load(fin);
      map.putAll(prop);
    }
    catch (FileNotFoundException e) {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    catch (IOException e)
    {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    finally
    {
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    return map;
  }</pre>
<p> 一个流被反反复复关了这么多次,虽然说可以重复关闭,但是有一个finally块不就可以了吗,并且你也应该判断一个fin是否为null,否则从finally块的抛出的空指针异常就不太好了。</p>
<p> </p>
<p>我们再看看StringFactory类的方法。</p>
<pre name="code" class="java">public static boolean chk(String regex, String s)
  {
    if ((s == null) || (s.trim().length() &lt; 0))
      return false;

    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(s.trim());
    return m.find();
  }</pre>
<p> 首先chk的命名就不太规范了,chk和check差几个字母呢,有必要这样省不?</p>
<p>还有,s.trim().length()有可能会小于0吗?最少的情况下也就是空字符串也就是等于0吧。</p>
<p> </p>
<p>其他的类也有问题,如果楼主说这个东西是商业项目的话,我就觉得有点那个了。</p>
<p> </p>
<p> </p>
</div>
<p> </p>
<p>谢谢 指点</p>
62 楼 ansjsun 2009-05-13  
不说啥了..咱们组织开源项目吧..弄个爬虫嘿嘿..只要是开源项目hello Word 我都参加
61 楼 java.lang.Object 2009-05-13  
<p>有些代码写得可有点那个哦。</p>
<p>首先看看PropertiesFactory类的代码,并且这个类也不能这样叫,最好只能叫ProperiesUtil类吧。StringFactory类也一样,最多也只能叫StringUtil类吧。</p>
<p> </p>
<pre name="code" class="java">public static Map loadPropertiesFile(Map map, String path)
  {
    Properties prop = new Properties();
    FileInputStream fin = null;
    try {
      fin = new FileInputStream(path);
      prop.load(fin);
      map.putAll(prop);
    }
    catch (FileNotFoundException e) {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    catch (IOException e)
    {
      e.printStackTrace();
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    finally
    {
      try
      {
        fin.close();
      }
      catch (IOException e) {
        e.printStackTrace();
      }
    }
    return map;
  }</pre>
<p> 一个流被反反复复关了这么多次,虽然说可以重复关闭,但是有一个finally块不就可以了吗,并且你也应该判断一个fin是否为null,否则从finally块的抛出的空指针异常就不太好了。</p>
<p> </p>
<p>我们再看看StringFactory类的方法。</p>
<pre name="code" class="java">public static boolean chk(String regex, String s)
  {
    if ((s == null) || (s.trim().length() &lt; 0))
      return false;

    Pattern p = Pattern.compile(regex);
    Matcher m = p.matcher(s.trim());
    return m.find();
  }</pre>
<p> 首先chk的命名就不太规范了,chk和check差几个字母呢,有必要这样省不?</p>
<p>还有,s.trim().length()有可能会小于0吗?最少的情况下也就是空字符串也就是等于0吧。</p>
<p> </p>
<p>其他的类也有问题,如果楼主说这个东西是商业项目的话,我就觉得有点那个了。</p>
<p> </p>
<p> </p>

相关推荐

    cmd-bat-批处理-脚本-Progress bar 1.zip

    cmd-bat-批处理-脚本-Progress bar 1.zip

    小红书2024年度Java编程开发面试题及参考答案-超详细解析

    该资源是小红书 2024 年度Java 编程开发面试题,内容非常详细,适合应届毕业生和准备寻求更高发展的Java工程师,希望给你们带来帮助。

    RISC-V指令集五级流水线CPU设计与验证:基于Verilog的实现及应用 CPU设计

    内容概要:本文详细介绍了基于RISC-V指令集的五级流水线CPU设计及其验证过程。首先,文章阐述了RISC-V指令集的特点及其在CPU设计中的优势,接着深入解析了每个流水线阶段(取指、解码、执行、访存、写回)的Verilog源代码实现。此外,提供了汇编验证代码用于测试CPU的功能,并附带详细的说明文档和PPT,确保设计的完整性和易理解性。最后,在Vivado平台上进行了全面的仿真和实际硬件测试,验证了设计的正确性和性能。 适合人群:从事嵌入式系统设计、CPU架构研究及相关领域的工程师和技术人员。 使用场景及目标:①理解和掌握RISC-V指令集在五级流水线CPU设计中的应用;②学习Verilog语言在CPU硬件设计中的具体实现方法;③通过汇编验证代码测试CPU功能,确保设计的可靠性。 其他说明:本文不仅提供了完整的Verilog源代码和汇编验证代码,还包括详细的说明文档和PPT,有助于读者更好地理解和实践CPU设计过程。

    基于51单片机与HC-05蓝牙模块的Android手机通信程序

    本程序实现了51单片机与手机之间的字符及数字通信功能,且代码中配有详尽的注释说明。关于通信原理的详细阐述,可在我的其他相关文章中查阅。

    cmd-bat-批处理-脚本-run dialogue.zip

    cmd-bat-批处理-脚本-run dialogue.zip

    多智能体编队技术中48智能体点对点转换的分布式模型预测控制及应用 多智能体系统

    内容概要:本文详细介绍了多智能体编队技术,特别是针对4智能体和8智能体的点对点转换分布式模型预测控制。首先概述了多智能体编队的概念及其广泛应用,如无人驾驶、无人机编队等。接着深入探讨了分布式模型预测控制的方法论,强调每个智能体依据自身模型和邻近智能体信息进行预测并制定控制策略,从而提升系统灵活性和鲁棒性。随后阐述了点对点转换的具体机制,即智能体间通过高效的信息交换实现状态间的平滑过渡。最后展示了简化的Python代码示例来解释这一过程,并提供了相关领域的权威参考文献。 适合人群:对多智能体系统、分布式控制系统感兴趣的科研人员和技术开发者。 使用场景及目标:适用于希望深入了解多智能体编队控制理论的研究者以及从事无人驾驶、无人机编队等相关项目的技术人员。目标在于掌握分布式模型预测控制的基本原理及其在实际工程中的应用。 其他说明:文中提供的代码仅为概念验证性质,实际部署时还需考虑更多因素如网络延迟、数据同步等。此外,附带的参考文献为读者进一步学习提供了宝贵的资料来源。

    2023年系统分析师真题及解析

    2023年系统分析师真题及解析

    IMG_20250521_201207.jpg

    IMG_20250521_201207.jpg

    基于鲸鱼算法的光伏风电选址定容优化及其经济性评估 多目标优化

    内容概要:本文探讨了利用鲸鱼算法(Whale Optimization Algorithm)对光伏和风电项目的选址和定容进行优化的方法。鲸鱼算法是一种新颖的智能算法,它模仿座头鲸的捕食行为,具有较少的参数调整需求和强大的寻优能力。文中详细介绍了该算法的核心机制,如气泡网攻击策略,并展示了如何将其应用于新能源项目的选址定容问题中。具体来说,通过定义合适的目标函数来衡量不同方案的表现,包括网损、节点电压偏差和投资成本等因素。此外,还讨论了如何通过调整权重系数来平衡各个目标之间的关系,从而获得最佳解决方案。最终,通过对实验结果的分析,证明了鲸鱼算法在处理此类多维度优化问题上的优越性能。 适合人群:从事新能源规划、电力系统工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要对光伏和风电项目进行科学合理的选址和定容决策的情境下,旨在提高能源利用效率的同时降低成本,确保电网稳定性和可靠性。 其他说明:文中提供了具体的Python代码示例,帮助读者更好地理解和实现鲸鱼算法的应用。同时强调了在实际操作过程中应注意的一些关键因素,如数据预处理方法的选择以及参数设置的影响等。

    工业自动化领域威纶通A2触摸屏程序标准精美模板及其应用

    内容概要:本文详细介绍了威纶通标准精美模板,一套专为A2触摸屏程序开发提供的可直接套用的界面模板。模板涵盖了多个实用功能界面,如配方管理、报警记录、操作记录、登录、设备使用说明、参数设置、系统设置、权限设置、趋势显示、电机设置、IO监控、工位用时、文档设置和维修界面。每个界面均经过精心设计,确保界面清新整洁,不带复杂的宏指令,便于操作和维护。此外,模板还支持XY曲线、树状图、数据统计等功能,能够灵活配置和调用。这套模板不仅适用于快速开发,也为新手和在校生提供了宝贵的学习资源。 适用人群:工业自动化领域的开发人员、工程师、新手和在校学生。 使用场景及目标:① 开发人员可以通过直接套用或复制模板,快速完成A2触摸屏程序开发;② 新手和在校生可以利用模板学习触摸屏程序的设计和实现,掌握工业自动化领域的关键技能。 其他说明:模板中的功能和界面设计充分考虑了工业自动化的需求,确保了系统的稳定性和实用性。

    一种三元锂电池析锂特性以及检测方法研究.zip

    一种三元锂电池析锂特性以及检测方法研究.zip

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    2025年网络媒体项目解决方案.docx

    2025年网络媒体项目解决方案.docx

    实证数据-2010-2023年上市公司-管理层情感语调数据-社科经管.rar

    该数据集为2010-2023年中国A股上市公司管理层情感语调的年度面板数据,覆盖45,320条样本,数据源自年报及半年报的"管理层讨论与分析"部分。通过构建中文金融情感词典(融合《知网情感分析用词典》与L&M金融词汇表),采用文本分析方法计算情感语调指标,包括:正面/负面词汇数量、文本相似度、情感语调1((积极词-消极词)/总词数)和情感语调2((积极词-消极词)/(积极词+消极词))。同时包含盈利预测偏差、审计意见类型等衍生指标,可用于研究信息披露质量、市场反应及代理问题。该数据复刻了《管理世界》《财经研究》等期刊的变量构建方法,被应用于分析语调操纵对债券市场的影响,学术常用度与稀缺度较高。

    cmd-bat-批处理-脚本-green.zip

    cmd-bat-批处理-脚本-green.zip

    心脏病发作数据集.rar

    数据文档 背景描述 心脏病是全球主要的健康威胁之一,也是导致死亡的主要原因。及早识别心脏病风险因素和预测可能的心脏问题对于预防和治疗至关重要。该数据集收集了与心脏健康相关的多种生理指标和实验室检查结果,旨在帮助开发能够区分心脏病阳性和阴性患者的预测模型。 通过分析这些数据,医疗专业人员和研究人员可以更好地理解不同因素(如年龄、性别、血压、血糖和心肌标志物)对心脏病发展的影响,从而制定更精准的诊断和治疗方案。 数据说明 字段 说明 Age 患者年龄 Gender 性别(1=男性,0=女性) Heart rate 心率(每分钟心跳次数) Systolic blood pressure 收缩压(毫米汞柱) Diastolic blood pressure 舒张压(毫米汞柱) Blood sugar 血糖水平(毫克/分升) CK-MB 肌酸激酶同工酶水平(心肌损伤标志物) Troponin 肌钙蛋白水平(心肌损伤特异性标志物) Result 诊断结果(positive=患有心脏病,negative=未患心脏病) 问题描述 该数据集适用于多种分析和预测场景,可以帮助解决以下问题: 心脏病风险预测: 基于生理指标和生化标志物预测个体患心脏病的风险。 关键指标识别: 确定对心脏病诊断最有预测价值的生理和生化指标。 人口统计学分析: 研究年龄和性别与心脏病发生率之间的

Global site tag (gtag.js) - Google Analytics