`
flysnowxf
  • 浏览: 573123 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Jsoup的源码修改-支持Cookie等头信息的设置

    博客分类:
  • Java
阅读更多
Jsoup是一个开源的html解析工具,使用css子选择器的语法解析元素,比古老的HtmlParser好用很多。在最新版本中,不支持设置Cookie等头信息来访问url,这样一些需要设置Cookie的网页就无法抓取了。为方便使用,我稍微修改了源码。

版本1.2.3中,访问url的api为:
String url = "";
Document doc = Jsoup.parse(new URL(url), 3000);

不能设置Cookie等头信息。

下面我们进行源码的修改。先浏览源码:
Jsoup.parse的源码为:
   public static Document parse(URL url, int timeoutMillis) throws IOException {
        return DataUtil.load(url, timeoutMillis);
    }

DataUtil.load的源码为:
    static Document load(URL url, int timeoutMillis) throws IOException {
        String protocol = url.getProtocol();
        Validate.isTrue(protocol.equals("http") || protocol.equals("https"), "Only http & https protocols supported");

        HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        conn.setInstanceFollowRedirects(true);
        conn.setConnectTimeout(timeoutMillis);
        conn.setReadTimeout(timeoutMillis);
        conn.connect();

很明显,调用HttpURLConnection.setRequestProperty来设置头信息即可。

我在DataUtil.java中重载了load函数,并抽取了一个公用方法,如下:
    static Document load(URL url, Map<String, String> requestMap, int timeoutMillis) throws IOException {
        String protocol = url.getProtocol();
        Validate.isTrue(protocol.equals("http") || protocol.equals("https"), "Only http & https protocols supported");

        HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        conn.setInstanceFollowRedirects(true);
        conn.setConnectTimeout(timeoutMillis);
        conn.setReadTimeout(timeoutMillis);
        // set request prop
        for (String key : requestMap.keySet()) {
			conn.setRequestProperty(key, requestMap.get(key));
		}
        conn.connect();
        
        return load(url, conn);
    }

    static Document load(URL url, int timeoutMillis) throws IOException {
        String protocol = url.getProtocol();
        Validate.isTrue(protocol.equals("http") || protocol.equals("https"), "Only http & https protocols supported");

        HttpURLConnection conn = (HttpURLConnection) url.openConnection();
        conn.setInstanceFollowRedirects(true);
        conn.setConnectTimeout(timeoutMillis);
        conn.setReadTimeout(timeoutMillis);
        conn.connect();

        return load(url, conn);
    }
    
    private static Document load(URL url, HttpURLConnection conn) throws IOException {
        int res = conn.getResponseCode();
        if (res != HttpURLConnection.HTTP_OK)
            throw new IOException(res + " error loading URL " + url.toString());
        
        String contentType = conn.getContentType();
        if (contentType == null || !contentType.startsWith("text/"))
            throw new IOException(String.format("Unhandled content type \"%s\" on URL %s. Must be text/*", 
                    contentType, url.toString()));
        
        InputStream inStream = new BufferedInputStream(conn.getInputStream());
        String charSet = getCharsetFromContentType(contentType); // may be null, readInputStream deals with it

        Document doc = readInputStream(inStream, charSet, url.toExternalForm());
        inStream.close();
        return doc;
    }

我在Jsoup.java中重载了parse函数:
    public static Document parse(URL url, Map<String, String> requestMap, int timeoutMillis) throws IOException {
        return DataUtil.load(url, requestMap, timeoutMillis);
    }

完成以上修改了,编写ant脚本打jar包即可。

调用例子:
		String url = "";
		Map<String, String> requestMap = new HashMap<String, String>();
		requestMap.put("Cookie", "");
		Document doc = Jsoup.parse(new URL(url), requestMap, 3000);

这样就可以设置Cookie信息了,可解决需要登录验证的页面爬取问题。
分享到:
评论

相关推荐

    jsoup-1.14.3-API文档-中文版.zip

    赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.jsoup:jsoup:1.14.3; 标签:jsoup、中文文档、jar包、java; 使用方法:解压...

    jsoup-1.10.3-API文档-中文版.zip

    赠送Maven依赖信息文件:jsoup-1.10.3.pom; 包含翻译后的API文档:jsoup-1.10.3-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.jsoup:jsoup:1.10.3; 标签:jsoup、中文文档、jar包、java; 使用方法:解压...

    jsoup-1.11.3-API文档-中文版.zip

    赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.jsoup:jsoup:1.11.3; 标签:jsoup、中文文档、jar包、java; 使用方法:解压...

    jsoup-1.13.1-sources.jar

    jsoup-1.13.1-sources.jar

    jsoup-1.7.2-sources.jar

    jsoup-1.7.2-sources.jar ,官网下载的,欢迎免费下载评价。

    jsoup-1.14.3-API文档-中英对照版.zip

    赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.jsoup:jsoup:1.14.3; 标签:jsoup、中英对照文档、jar包、java; ...

    jsoup-1.11.3-API文档-中英对照版.zip

    赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.jsoup:jsoup:1.11.3; 标签:jsoup、中英对照文档、jar包、java; ...

    jsoup-1.15.3.jar

    jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...

    jsoup-1.10.3-API文档-中英对照版.zip

    赠送Maven依赖信息文件:jsoup-1.10.3.pom; 包含翻译后的API文档:jsoup-1.10.3-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.jsoup:jsoup:1.10.3; 标签:jsoup、中英对照文档、jar包、java; ...

    jsoup-1.8.1-javadoc.jar

    jsoup-1.8.1-javadoc.jar jsoup文档

    jsoup-1.11.2.rar

    jsoup-1.11.2.jar jsoup-1.11.2-javadoc.jar jsoup-1.11.2-sources.jar JsoupXpath-0.3.2.jar

    jsoup-1.11.2-javadoc.zip

    jsoup-1.11.2-javadoc.zip

    jsoup-1.5.2-sources.jar

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    html解析利器 jsoup-1.7.1-sources.jar

    java开源工具 html解析利器 jsoup-1.7.1-sources.jar

    jsoup-1.11.2-javadoc.jar

    jsoup-1.11.2-javadoc.jar 下载自官网,用于解析网页,可以配合爬虫程序玩一玩。这是文档

    jsoup-1.7.2-javadoc.jar

    jsoup-1.7.2-javadoc.jar

    jsoup-jsoup-1.6.1.zip

    jsoup是一款Java的HTML解析器,主要用来对HTML解析。其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果,无论HTML的格式是否完整。

    jsoup.jar-1.8.1版本

    jsoup.jar-1.8.1版本,可以把url中的html代码解析出来,非常好

    jsoup-1.7.3-javadoc

    比如它可以处理: 1 没有关闭的标签 比如: &lt;p&gt;Lorem &lt;p&gt;Ipsum parses to &lt;p&gt;...3 一个Element包含一个子节点集合 并拥有一个父Element 他们还提供了一个唯一的子元素过滤列表 ...

    jsoup-1.13.1-javadoc.jar包,用于对HTML文本的规范化处理

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Global site tag (gtag.js) - Google Analytics