`

phantomjs

 
阅读更多
最近做爬虫,基于网页上面有很多ajax请求,可以采用httpclient找到相应的ajax,这样做比较麻烦,然后采用phantomjs,直接可以获取到网页所有信息。
public static String dealWithAjax(String url) throws IOException {    
Runtime rt = Runtime.getRuntime();    
Process p = rt.exec("phantomjs.exe D:\\rj\\RedisImportMysql\\src\\js\\test.js "+url);  
InputStream is = p.getInputStream();    
BufferedReader br = new BufferedReader(new InputStreamReader(is));    
StringBuffer sbf = new StringBuffer();    
String tmp = "";    
while((tmp = br.readLine())!=null){    
sbf.append(tmp);  
sbf.append("\n");
}    
sbf.append("-----------------------------------------------------------------------");
return sbf.toString();    
}    

public static void main(String[] args) throws IOException {    
// System.out.println(getAjaxCotnent("http://shixin.court.gov.cn/personMore.do")); 
String s = dealWithAjax("http://list.tmall.com/search_product.htm?q=%CA%D6%BB%FA&type=p&vmarket=&spm=a222r.7716956.a2227oh.d100&from=..pc_1_searchbutton");
System.out.println(s);
FileUtil.writeFile("d://a.txt", "utf-8", s,true);

}



test.js源码:
//codes.js    
system = require('system')    
address = system.args[1];//获得命令行第二个参数 接下来会用到    
//console.log('Loading a web page');    
var page = require('webpage').create();    
var url = address;  
var newUrl ;
//console.log(url);    
page.open(url, function (status) {    
//Page is loaded!    
if (status !== 'success') {    
console.log('Unable to post!');    
} else {    
//console.log(page.content);    
var content = page.evaluate(function() {  
//var elements =  document.querySelector("#xy-impcon-B");//示范下如何使用页面的jsapi去操作页面的  www.oicqzone.com
//return elements.innerHTML
return document.querySelector("*").innerHTML;
});    
console.log(content);
}       
});
page.onLoadFinished= function(){
console.log("执行完毕。。。。。。。。");

//window.scrollTo(0,10000);
//window.document.body.scrollTop = document.body.scrollHeight; 


//page.sendEvent('keydown', page.event.key.40, null, null);
//var evtObj = document.createEvent('KeyboardEvent');
//ev.initEvent("click", true, true);
//evtObj.initKeyEvent('keydown', true, true, window, false, false, false, false, 40, 0 );
//document.dispatchEvent(evtObj);
console.log("事件。。。。。。。。。。。。。。。。。。。。。。。。。。。");
phantom.exit();
};
page.onUrlChanged = function(targetUrl) {
console.log('New URL: ' + targetUrl);
newUrl = targetUrl;
/*
* if((targetUrl.indexOf("http://www.baidu.com/s?"))>-1){
* page.open(targetUrl); }
*/

};
page.onResourceReceived = function(response) {
console.log('resource rec page.url---'+page.url);
console.log('reponse url---'+response.url);

};

page.onResourceError = function(resourceError) {
console.log('Unable to load resource (#' + resourceError.id + 'URL:'
+ resourceError.url + ')');
console.log('Error code: ' + resourceError.errorCode + '. Description: '
+ resourceError.errorString);
};



phantom.onError = function(msg, trace) {
var msgStack = ['PHANTOM ERROR: ' + msg];
if (trace && trace.length) {
msgStack.push('TRACE:');
trace.forEach(function(t) {
msgStack.push(' -> ' + (t.file || t.sourceURL) + ': ' + t.line + (t.function ? ' (in function ' + t.function +')' : ''));
});
}
console.error(msgStack.join('\n'));
phantom.exit(1);
};
//page.colse()



分享到:
评论

相关推荐

    phantomjs,PhantomJS

    PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供...

    phantomjs-2.1.1-windows和echarts-convert

    echarts-convert.js和PhantomJS工具 PhantomJs (1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。 (2)提供javascript API...

    phantomjs-2.1.1.rar

    phantomjs 1.下载phantomjs,[官网]:http://phantomjs.org/ 2.我们是windows平台,解压,会在bin目录下看到exe可执行文件,有它就够啦。 3.写一个parser.js: ———————————————— 版权声明:...

    鲲鹏 aarch64 编译后 phantomjs

    鲲鹏 aarch64 编译后 phantomjs

    Chromedriver、Operadriver、phantomjs

    8. phantomjs_win 9. phantomjs_mac 10.phantomjs_linux 验证程序(以Opera为例) from selenium import webdriver import time browser = webdriver.Opera() browser.get('http://www.baidu.com/') browser.find_...

    phantomjs1.9.8历史版本用于爬虫

     System.setProperty("phantomjs.binary.path", "./phantomjs/win/phantomjs.exe");//设置PhantomJs访问路径 }  DesiredCapabilities desiredCapabilities = DesiredCapabilities.phantomjs();  //设置参数 ...

    phantomjs-2.1.1.zip

    phantomjs2.1.1安装包以及生成图片中遇到中文需要安装的字体包 运行于本地或者正式环境上需要安装这些软件

    phantomjs 2.1.1 for windows

    提供phantomjs 2.1.1 for windows快速下载 phantomjs是一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。 为啥必须设置下载积分...

    Phantomjs API 中文版

    PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供...

    phantomjs-2.1.1 下载

    phantomjs Mac 版本和Linux版本都有,根据你的系统安装吧,

    phantomjs-2.1.1-windows.zip

    phantomjs-2.1.1-windows

    phantomjs-2.1.1-windows

    PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供...

    phantomJS 1.2 jar包

    phantomJS jar包 1.2.1版本 适用于python爬虫 抓取网页

    编译好的arm版的phantomjs2.1.1二进制包

    已经编译好的arm版的phantomjs2.1.1版本的二进制包,可以直接运行。

    java调用phantomJs进行网页截图源码

    java调用phantomJs进行网页截图源码,有需要的朋友自行下载

    phantomjs-2.1.1-windows.zip.7z

    phantomjs无界面浏览器,Windows使用,2.1.1版本,有需要直接下载即可使用。

    phantomjs-2.1.1-windows.zip(还含例子)

    PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 PhantomJS 可以用于 页面自动化 , 网络...

Global site tag (gtag.js) - Google Analytics