最近使用java爬虫收集数据,遇到js动态数据的时候使用如jsoup是获取不到数据的,所以要先进行页面的渲染。
下面是以京东商城数据为例,使用Selenium需要先下好相应的驱动,我使用的是Chrome;还需要加入common-exec包
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
/**
* Created with IntelliJ IDEA.
* User: Mr_Tank_
* Date: 13-11-29
* Time: 下午9:52
* To change this template use File | Settings | File Templates.
*/
public class seleniumTest {
public static void main(String args[]){
System.getProperties().setProperty("webdriver.chrome.driver", "E:\\driver\\chromedriver.exe");
WebDriver webDriver =new ChromeDriver();
webDriver.get("http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-1-1-1-72-4137-33.html");
WebElement webElement = webDriver.findElement(By.xpath("//div[@id='plist']"));
System.out.println(webElement.getAttribute("outerHTML"));
WebElement li=webElement.findElement(By.xpath("//li[@index='1']"));
String name=li.findElement(By.xpath("//li[@index='1']//div[@class='p-name']/a")).getText();
System.out.println("商品名:"+name);
String price=li.findElement(By.xpath("//li[@index='1']//div[@class='p-price']/strong")).getText();
System.out.println("价格:"+price);
String eva=li.findElement(By.xpath("//li[@index='1']//span[@class='evaluate']/a[@target='_blank']")).getText();
System.out.println("评价:"+eva);
webDriver.close();
}
}
结果:
分享到:
相关推荐
这个示例代码适用于处理带有动态加载内容的网页,通过使用Selenium进行JavaScript渲染,确保获取到完整的页面内容,然后使用BeautifulSoup进行解析和数据提取。你可以根据需要进行进一步的数据处理和操作。
示例代码中,我们使用Selenium库创建一个浏览器驱动,并使用循环处理多个分页。...请注意,在处理分页时,我们通过循环遍历每个分页并使用Selenium加载渲染后的内容,以确保获取到每个分页的数据。
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 动态网页爬取,如使用Selenium获取JS渲染页面 3. 爬取图片,文件或API,处理各种数据格式 这三个项目可以覆盖从简单到复杂的不同场景,让学习者快速熟悉正则表达式,Beautiful Soup,Selenium,请求模块等核心知识,并...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...
2. 网页抓取:可用于爬虫和数据抓取,模拟浏览器访问网页并提取所需数据。 3. 脚本执行:开发者可以使用chromedriver.exe执行浏览器相关的任务,如页面截图、页面渲染和自动化交互。 【其他说明】 1. 版本兼容性:...