`

使用jsoup分析网页

    博客分类:
  • Java
阅读更多
之前用过HTMLParser,许久不更新的东西了,印象中也没那么好用。
今天重新搜索了一下,发现jsoup很容易上手~选择器很好很强大。
支持DOM和选择器两种模式


1、下载
jsoup的网站很简洁:http://jsoup.org/
入门做的很不错:http://jsoup.org/cookbook/

2、简单的例子
以下示例用于抓取iteye首页的新闻及连接,共使用了3种方式获取元素:
选择器
用组件的Id
用组件的class

package tests;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class EgParseItEyeNews {
	public static void main(String[] args) throws IOException {
		String url = "http://www.iteye.com/";
		// 不加userAgent会被视为爬虫。。。。。
		Document doc = Jsoup.connect(url)
				.userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1 ")
				.get();

//		Element news = doc.getElementById("news");               //1、通过ID
		Elements	newsConents=doc.getElementsByClass("news_content");//2、通过class
		Element news=newsConents.first();
		if (news == null)
			System.out.println(doc);
		else {
//			System.out.println(news);
//			System.out.println("end of news****************\n");
			Elements elems = news.select("a"); // 3、通过选择器  ,     把链接都提取出来
			for (Element element : elems) {
				System.out.println(element.text() + "             \t链接为:" + element.attr("href"));
			}
		}

	}
}


输出如下:
  • 轻量级JavaWeb开发框架EWeb4J作者赖伟威专访             链接为:http://www.iteye.com/magazines/105
  • [详情]             链接为:http://www.iteye.com/magazines/105
  • 12月TIOBE编程语言排行榜:年度语言非ObjC莫属             链接为:http://www.iteye.com/news/26673
  • [详情]             链接为:http://www.iteye.com/news/26673
  • JDK6明年2月停止更新,甲骨文呼吁尽快升级至7             链接为:http://www.iteye.com/news/26683
  • [详情]             链接为:http://www.iteye.com/news/26683


。。。好多重复的链接啊!!!将选择器重的代码改为:
Elements elems = news.select("dt>a"); // 3、通过选择器  ,     把链接都提取出来

使得只选择的链接为dt标签的直接子类即可去掉[详情]项,更多选项如后文所示。


3、选择器字符串的语法
这里有实例介绍:http://jsoup.org/cookbook/extracting-data/selector-syntax
用法详解:http://jsoup.org/apidocs/org/jsoup/select/Selector.html
下图是从上面的网址抠出来的:


4、在线文档
http://jsoup.org/apidocs/
  • 大小: 119.6 KB
分享到:
评论

相关推荐

    jsoup网页分析jar包

    jsoup网页分析jar包,里面包含两个版本,请随意使用。

    jsoup网页内容分析

    可以用与html页面内容分析,提取所需内容,由于htmlParser好久没更新,可以考虑用这个试试

    jsoup1.10_jsoupjar包网页_

    网页爬虫jsoup的jar包,可以帮组下载网页,方便网页爬虫爱好者抓取分析网页。

    jsoup-1.8.1.jar

    jsoup 网页解析 根据url获取网页内容,分析网页内容,java爬虫

    jsoup中文帮助文档

    jsoup 中文帮助文档 1. 解析和遍历一个html文档输入 2. 解析一个html字符串 3. 解析一个body片断 4. 根据一个url加载Document对象 5. 根据一个文件加载Document对象数据抽取 6. 使用dom方法来遍历一个Document对象 7...

    超级课程表 课程格子 教务系统抓取 SQLite Android Studio HttpWatch Jsoup解析网页.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    Java爬虫入门——使用Jsoup解析HTML页面.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    Java开源的xpath解析器Jsoupxpath.zip

    JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath.为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath...

    网络爬虫技术Jsoup的使用,来获取大众点评 健身场馆的有关数据.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    使用Java爬虫Jsoup写的爬取各大小说网站内容。支持多网站小说来源,程序猿划水利器。.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    通过Jsoup的Android爬虫爬取音乐的app.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    java爬虫 jsoup,模拟登陆csdn、github.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    Android 本地网络小说爬虫,基于jsoup及xpath.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    Java利用HtmlUtil和jsoup爬取知网中国专利数据的爬虫程序.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    Java_small-Applaction:使用HttpClient和Jsoup开发的Java爬虫,主要实现加载页面分析页面源代码并提取出相关数据

    利用jsoup解析字符串形式的html网页源代码 提取出课程的名称,分数,存储到一个Set集合中 开发流程: 通过浏览器分析网站的请求方式为get方式,所以在网址后面添加参数用户名和密码登录系统,实际通过用户自己输入...

    基于Jsoup的 Android 网络爬虫,抓取海投网上的高校宣讲会信息。.zip

    其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始...

    最简单的爬虫-WebMagic 0.73 源码

    作为爬虫框架,它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学们可以先行百度一下这些都是什么,起...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu

    数据分析与处理:对抓取的数据进行清洗、转换和格式化,使其更易于分析和使用。 数据整合与存储:将处理后的数据存储到本地文件、数据库或其他存储介质中,以便后续使用。 功能特点 网页抓取:使用Java的网络编程库...

Global site tag (gtag.js) - Google Analytics