使用jsoup分析网页

cherishLC

浏览: 679505 次
性别:
来自: 北京

最近访客更多访客>>

jaybril

duanyilinelf

q343724746

半夏浮生

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

java html 解析 parse

之前用过HTMLParser，许久不更新的东西了，印象中也没那么好用。
今天重新搜索了一下，发现jsoup很容易上手~选择器很好很强大。
支持DOM和选择器两种模式

1、下载
jsoup的网站很简洁：http://jsoup.org/
入门做的很不错：http://jsoup.org/cookbook/

2、简单的例子
以下示例用于抓取iteye首页的新闻及连接，共使用了3种方式获取元素：

选择器

用组件的Id

用组件的class

package tests;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class EgParseItEyeNews {
	public static void main(String[] args) throws IOException {
		String url = "http://www.iteye.com/";
		// 不加userAgent会被视为爬虫。。。。。
		Document doc = Jsoup.connect(url)
				.userAgent("Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1 ")
				.get();

//		Element news = doc.getElementById("news");               //1、通过ID
		Elements	newsConents=doc.getElementsByClass("news_content");//2、通过class
		Element news=newsConents.first();
		if (news == null)
			System.out.println(doc);
		else {
//			System.out.println(news);
//			System.out.println("end of news****************\n");
			Elements elems = news.select("a"); // 3、通过选择器  ，     把链接都提取出来
			for (Element element : elems) {
				System.out.println(element.text() + "             \t链接为：" + element.attr("href"));
			}
		}

	}
}

输出如下：

轻量级JavaWeb开发框架EWeb4J作者赖伟威专访链接为：http://www.iteye.com/magazines/105
[详情] 链接为：http://www.iteye.com/magazines/105
12月TIOBE编程语言排行榜：年度语言非ObjC莫属链接为：http://www.iteye.com/news/26673
[详情] 链接为：http://www.iteye.com/news/26673
JDK6明年2月停止更新，甲骨文呼吁尽快升级至7 链接为：http://www.iteye.com/news/26683
[详情] 链接为：http://www.iteye.com/news/26683

。。。好多重复的链接啊！！！将选择器重的代码改为：

Elements elems = news.select("dt>a"); // 3、通过选择器  ，     把链接都提取出来

使得只选择的链接为dt标签的直接子类即可去掉[详情]项，更多选项如后文所示。

3、选择器字符串的语法
这里有实例介绍：http://jsoup.org/cookbook/extracting-data/selector-syntax
用法详解：http://jsoup.org/apidocs/org/jsoup/select/Selector.html
下图是从上面的网址抠出来的：

4、在线文档
http://jsoup.org/apidocs/

查看图片附件

分享到：

删除citeulike导出的bib文件中的中文字符 ... | 将Excel表格转化为Latex表格——采用Exce ...

2012-12-05 16:12
浏览 2648
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用jsoup分析网页

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用jsoup分析网页

评论

发表评论

相关推荐

lambda表达式

利用Doxygen生成C++、Java文档

删除citeulike导出的bib文件中的中文字符，使之能在WinEdt中读取

JNI中基本类型数组的传递方法（无需拷贝数据！！！）

swig--在java、C#中调用c++写的DLL（以vs2012配置为例）

GAE学习笔记——静态文件、资源文件；GAE中使用velocity模板

Google application engine 的Eclipse配置方法

javadoc命令

java7文件夹监控

SWT学习笔记——JFace中TableViewer的使用及注意事项

SWT学习笔记——JFace中TableViewer的使用及注意事项

SWT学习笔记——SWT、JFace的配置（含源代码、javadoc的获取）

SWT学习笔记7——组件背景图片，鼠标事件，鼠标样式

SWT学习笔记6——Shell相关的事件

SWT学习笔记5——简易的多标签文本编辑器

SWT学习笔记4——系统托盘 system tray

SWT学习笔记3——颜色、字体、图片

SWT笔记2——测试UI线程的事件处理

SWT笔记1，组件的关系，屏幕信息

Linux JDK安装

最近访客更多访客>>