http://www.17k.com/chapter/76839/8810097.html
这是17K的一个小说的章节,内容是通过JS加载的,当我们用httpclient去抓取时,因为取得的是原始页面,所以无法获得章节的具体内容。
用HtmlUnit模拟浏览器运行,获得执行后的html页面,然后就可以抓取到想要的具体内容了^_^
public class HtmlUnitTest {
public static void main(String[] args) throws Exception {
// 新建一个WebClient对象,此对象相当于浏览器
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
// 构造一个URL
URL url = new URL("http://www.17k.com/chapter/76839/8810097.html");
// 通过getPage()方法,返回相应的页面
HtmlPage page = (HtmlPage) webClient.getPage(url);
System.out.println(page.getHtmlElementById("chapterContent").asText());
}
}
分享到:
相关推荐
java使用htmlunit工具抓取js中加载的数据.docx
赠送jar包:htmlunit-core-js-2.27.jar; 赠送原API文档:htmlunit-core-js-2.27-javadoc.jar; 赠送源代码:htmlunit-core-js-2.27-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.27.pom; 包含翻译后...
赠送jar包:htmlunit-core-js-2.27.jar; 赠送原API文档:htmlunit-core-js-2.27-javadoc.jar; 赠送源代码:htmlunit-core-js-2.27-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.27.pom; 包含翻译后...
基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...
htmlunit2.8 + jsoup1.7各种网站上的数据抓取。
赠送jar包:htmlunit-core-js-2.33.jar; 赠送原API文档:htmlunit-core-js-2.33-javadoc.jar; 赠送源代码:htmlunit-core-js-2.33-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.33.pom; 包含翻译后...
赠送jar包:htmlunit-core-js-2.33.jar; 赠送原API文档:htmlunit-core-js-2.33-javadoc.jar; 赠送源代码:htmlunit-core-js-2.33-sources.jar; 赠送Maven依赖信息文件:htmlunit-core-js-2.33.pom; 包含翻译后...
获取执行js代码后的html文档。
htmlUnit所需工具包,htmlUnit,htmlUnit,htmlUnit,htmlUnit,htmlUnit
针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取
htmlunit-2.14 jar包htmlunit爬去js加载后的页面特表好用
高效的java爬虫,内附代码 sql数据表 ,main方法启动。...避免了jsoup无法抓取js代码生成的数据内容的弊端。避免了client无法一次性获取大量信息的弊端。有能获取静态页面形成之前的对方数据内容的高手 欢迎借阅指导
htmlunit所需要的所有的jar,亲测可用,包含htmlunit,htmlunit-core-js等等
通过htmlunit 下载网站资源的简单示例 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。 项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的...
htmlunit-2.26-bin ,htmlunit的jar包,js动态生成数据的抓取
htmlunit jar zip 2.23 用于html爬虫
htmlunit2.8.jar
htmlunit-2.1.5的源码,可以提高我们对htmlunit的理解
htmlunit 模拟cookie 存取 cookie值登录 如: wsyyuser.xywy.com Cookie c = new Cookie("wsyyuser.xywy.com", "PHPSESSID", Common.getValue("session_id") );
使用HTMLUnit,PhantomJS和JBrowserDriver爬行不同的网站 上述无浏览器驱动程序的简单示例。