最新文章列表

taobao 爬虫方案

1. taobao, tmall 店铺数据      在官网上我们可以通过 search 接口 (https://shopsearch.taobao.com/search?app=shopsearch&q=iphone )获取前 1020 页数据,界面展示是 100页数据 每页数据 20条,即2000条,现在通过              2. item 接口(又称之为 商品 ...
yellowhat 评论(0) 有4963人浏览 2016-08-17 17:34

java开源爬虫gecco详细文档新鲜出炉

抽空进行了Gecco爬虫文档的撰写,目录如下:   Gecco是什么 1. 一分钟你就可以写一个简单爬虫 2. 软件总体结构 3. 从下载说起 4. 抽取页面内容 5. 业务逻辑处理   地址:https://xtuhcy.gitbooks.io/geccocrawler/content/index.html
xtuhcy 评论(0) 有2530人浏览 2016-02-19 18:10

Java主题爬虫Gecco发布1.0.4版本

https://github.com/xtuhcy/gecco 主要特征 1、简单易用,使用jquery的css selector风格抽取元素 2、支持页面中的异步ajax请求 3、支持页面中的javascript变量抽取 4、利用Redis实现分布式抓取 5、支持下载时UserAgent随机选取 6、支持下载代理服务器随机选取 7、支持结合Spring开发业务逻辑
xtuhcy 评论(0) 有1133人浏览 2016-02-03 10:34

一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)

  GECCO(易用的轻量化的网络爬虫) 初衷 现在开发应用已经离不开爬虫,网络信息浩如烟海,对互联网的信息加以利用是如今所有应用程序都必须要掌握的技术。了解过现在的一些爬虫软件,python语言编写的爬虫框架scrapy得到了较为广泛的应用。gecco的设计和架构受到了scrapy一些启发,结合java语言的特点,形成了如下软件框架。易用是gecco框架首要目标,只要有一些jav ...
xtuhcy 评论(0) 有2538人浏览 2015-12-30 22:08

Selenium WebDriver 中鼠标和键盘事件分析及扩展

组合键的使用以及对于 Keys 类型没有覆盖到的组合键的扩展 本文将总结 Selenium WebDriver 中的一些鼠标和键盘事件的使用,以及组合键的使用,并且将介绍 WebDriver 中没有实现的键盘事件(Keys 枚举中没有列举的按键)的扩展。举例说明扩展 Alt+PrtSc 组合键来截取当前活动窗口并将剪切板图像保存到文件。
kevinflynn 评论(0) 有1185人浏览 2015-05-15 14:19

对比浏览器,casperjs,httpclient的Header信息

@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=req ...
alleni123 评论(0) 有1407人浏览 2014-11-04 11:57

使用htmlUnit和Jsoup获取163邮箱通讯录

import java.io.IOException;import java.net.URL;import java.util.ArrayList;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import com. ...
sunjing 评论(0) 有14762人浏览 2014-04-08 16:08

Heritrix 3.1.2搭建

一、从官网下载 heritrix-3.1.2-20130802.033935-177-dist.zip heritrix-3.1.2-20130802.033935-177-src.zip 二、在eclipse建立一个新的web项目 将heritrix-3.1.2-20130802.033935-177-dist.zip的heritrix-3.1.2-SNAPSHOT\lib的jar复制到WEB- ...
修__ 评论(0) 有1572人浏览 2013-08-03 22:02

crawler

distribute_crawler: https://github.com/gnemoug/distribute_crawler
dengbenji 评论(0) 有754人浏览 2013-05-30 11:06

nutch crawler 解析 下

好,咱们继续。 parse $bin/nutch parse $commonOptions $skipRecordsOptions $CRAWL_PATH/segments/$SEGMENT CLASS=org.apache.nutch.parse.ParseSegment 这就是传说中的解析网页内容的操作。 map中: 首先只解析成功的内容,看上一步返回的状态码,如果不是成功的情况直 ...
sharp-fcc 评论(0) 有962人浏览 2013-05-14 12:01

Nutch2.1的Crawler源码解读

运行Crawler.java时,程序经过五个步骤:InjectJob、FetcherJob、ParserJob、DbUpdaterJob、SolrIndexerJob,这五个类都是实现了org.apache.hadoop.util.Tool接口,切换各个任务都是通过runTool(<? Extends Tool>Tool.class, args)方法来调用,该接口中只有一个run( ...
xtuali 评论(2) 有2315人浏览 2012-12-09 22:31

Heritrix3.1.0RC1使用Cookie不能自动登录问题的一个解决办法

改FetchHTTP类,   1、在innerProcess方法中的代码 this.http.executeMethod(customConfigOrNull, method); 之前增加: populateCookies(method);   2、增加私有方法如下: private void populateCookies(HttpMethodBase method) { ...
wiflish 评论(2) 有2347人浏览 2011-10-18 10:19

构建自己的DSL之一 Simple Crawler

转载请标明出处:http://fuliang.iteye.com/blog/1122008 经常需要从网上抓取一些需要的内容做成语料,供分类使用。所以需要一个灵活的抓取、抽取程序-自己的DSL来做这件事,这样每次只需要写几行代码就能得到需要的内容。比如我比较希望以下几行代码就能把我的博客的内容给抓下来: crawler = Crawler.new 1.upto(10) do |pn| ...
fuliang 评论(0) 有2965人浏览 2011-07-11 22:08

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics