`

Jsoup

 
阅读更多
Jsoup官网:https://jsoup.org/

Jsoup中文开发指南:http://www.open-open.com/jsoup/


示例代码抓取微信公众号中的文章简单实现:
package jsoup;

import java.io.IOException;
import java.nio.charset.Charset;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.Elements;

public class Test {
	public static void main(String[] args) {
		send2();
	}
	//Parse a document from a String
	public static void send(){
		String html = "<html><head><title>First parse</title></head>"
				  + "<body><p>Parsed HTML into a doc.</p></body></html>";
				Document doc = Jsoup.parse(html);
				System.out.println(doc);
	}
	//Parsing a body fragment
	public static void send1(){
		String html = "<div><p>Lorem ipsum.</p>";
		Document doc = Jsoup.parseBodyFragment(html);
		Element body = doc.body();
		System.out.println(body);
	}
	
	
	//抓取微信文章
	public static void send2(){
		Document doc;
		try {
			String url = "http://mp.weixin.qq.com/s/baaxvXgDVMo8DwnEUO9QVQ";
			doc = Jsoup.connect(url).timeout(3000000).get();
			String title = "";
			//标题   class="rich_media_title" 的标签中的内容就是文章的标题
			Elements rich_media_titles = doc.getElementsByClass("rich_media_title");
			if(null != rich_media_titles && rich_media_titles.size() > 0 ){
				//第一个
				title = rich_media_titles.get(0).html();
			}
			System.out.println("标题是:"+title);
			//抓取文本
			String content = "";
			Elements pses = doc.getElementsByTag("p");
			if(null != pses && pses.size() > 0){
				for (Element element : pses) {
					if(element.hasText()){
						System.out.println(element.text());
					}
				}
			}
			//抓取图片
			Elements imgs = doc.getElementsByTag("img");
			if(null != imgs && imgs.size() > 0){
				for (Element element : imgs) {
					if(element.attr("data-src") != null){
						System.out.println(element.attr("data-src"));
					}
				}
			}
			
			
			
			
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

}

运行结果:
   标题是:这组照片99%的男人看了都会想...只有1%的人会做,有你吗?!
微信号 bopaijs
功能介绍 分享最全面的健身知识.一起来塑造强健的体魄、完美的形体以及强大的意志力!
▲点击上方蓝字,一键关注
如果你是一个男人
无论高矮胖瘦
这组照片都会让你想...
但是只有1%的才会去做
看看有你吗?
▼
20岁之前不漂亮可以怪父母
20岁之后不漂亮要怪自己
▼
男人就要有男人的样子
不要做连自己都讨厌的娘炮
▼
对于男人来说
身材比脸更重要
▼
一个人的身材
可以透露出一个人的修养
▼
健壮,结实,匀称
性感,舔屏...美好的词永远都是在说这样的男人
▼
胖点可爱是别人安慰你
扪心自问,你会和现在的自己搞对象吗?
▼
改变就要从现在开始
多少人都输在等字上面
等工作,等开学,等发工资,等下次,
等有时间,等来了脂肪,等掉了青春
等没了男人的气质
▼
人不能因为胖才开始健身
而是因为不健身才变胖
▼
健身虽然痛苦
改变却可以脱胎换骨
▼
最好的健身时间是8年前
另外一个就是现在
▼
没有改变不了的身体
只有不想改变的人
▼
比你身材差的人都可以逆袭
比你不好的人都在努力
你又有什么理由放弃?
▼
当人忍无可忍的时候
请再忍一忍
每一点改变都在累积
▼
照下镜子,发誓不要再成为镜子里的那个人!
不管为了梦想,为了一个人...
▼
54岁的pete和60岁的steve
男人的一生都有男人味!
这是一种态度
▼
当你想要改变
付诸于行动
不要停止
等结果发生
他们都活出了你想要的样子
该文章作者已设置需关注才可以留言
写留言
写留言
了解留言功能详情
微信扫一扫 关注该公众号

http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRL6qVIg7IibL9B8hn6ib6TzsZecvCegNsOJD7kKQ9yK6VT4qEhC7bDPMA/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyR2IcsaAgAXI7tWf2ibdjhzZXNPhIe09p4VFMmDhaMB8L8wib8xFtHuw6w/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyR9jlMJ9GJqkLXBicMVDe1zEticDAN4MNp2qdG60KZW651HMmIpCIcTKpQ/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyREV7q3icTYFEzoFeHDl4T2nBFWwnZQRTcwl4I8kibjzgcWG3ib23P5bUlA/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRY3SesDdHzMueRyQe2TeFqRj74rbkBp4icPtrtk5lPCLQAqSk5yRW7Yg/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRjNqxITONVwFd5FCQU1bZnMiaRelZaM5Fkp8A5OLW8WgrfwibAoVlH1Ig/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRVH7wqYybe6zoTh0vdRDODaJ8sw6jc5l6OMy94o6XGj7dz8M6zzGMMg/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRBHy7iaqKBqnMxtbGdNpzdSWbiasicgPjZIUVq1JlicKEib5utgT1u3PLPlQ/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRFlRAY894yQ2JiacNTCZKxKoSasJCHp45cYZWDvWTX1csgREt2q0N0ug/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRwRIxkeTCRCFSfmqkYB0NR23JMiam4icP7qd3FFLpKgpjrh5MgNFNUGCA/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRu76Z9VTkEuOjK75fSbiauzMpu3ibgZ0c5QaBcwgL0KVR0iawkqH5oD76w/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRK6ia0kBnNiaG8J7picWa3Bib31nvErKJiajPH8Brc8L3VrQezLJg8qw1P1w/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRITITMtXLtCkTmGmQ81SPOnq8Om53ibY0bDETbTJDq8syiaFVgTgKibPfg/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyR0u3zqiaalibv44cn61ryich53vGGwLpCWI3Oy9ibqBZIFfMXG5W4qdchmg/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRUk04NOe35micrI1POhyFShms3He1hP8JqALH080fDY9XnQ8kOAF2h9A/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRlY6rb3k3Ss2xLe1hKqsLaRI9licic1uEJf6PY7fTx9XZI57aBibw5qB6Q/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRpdhBsTibYgyGUO564GfdibUusKKRP2WDQluw2SboDKXKuFZZq1hknK2g/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRZicw8IoKPIRMuMz4DicBdV8nyWfJXlZoAq16AsD3l6OZPmia6PoSMmEBw/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRd7GrySoPrWDrkRyc034B9Ribicb8CSufJ3ssYt6YjKvXibUHjrCHSxeFA/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRz5fAXSbIoOzv2zYwAcbTWYOdna0Y4iclD0FymILL6YpSZWoUyzDbibjQ/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyR96lvWcHo0aOGgtoYbWrK2cKzJJYic1FqUlG1eGR5a9icX3yh9gtVNMhw/0?wx_fmt=jpeg
http://mmbiz.qpic.cn/mmbiz_jpg/5FWgG57qlRJTTTswPGxYW6zJlo8MhXyRIX2TTgw7bUGMtSSicDKEbFUGx154hzQXJBFFib14WkLfeEqm6a24lK8Q/0?wx_fmt=jpeg






分享到:
评论

相关推荐

    jsoup-1.15.3.jar

    jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...

    jsoup-1.14.3-API文档-中文版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    jsoup基于java爬虫项目

    Jsoup的主要功能 1)从一个URL,文件或字符串中解析HTML 2)使用DOM或CSS选择器来查找、取出数据 3)可操作HTML元素、属性、文本 注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。 Jsoup的主要功能 1)...

    jsoup-1.11.3-API文档-中文版.zip

    赠送jar包:jsoup-1.11.3.jar; 赠送原API文档:jsoup-1.11.3-javadoc.jar; 赠送源代码:jsoup-1.11.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API...

    jsoup-1.14.3-API文档-中英对照版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    jsoup 帮助文档1.6.3

    jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的... &lt;groupId&gt;org.jsoup &lt;artifactId&gt;jsoup &lt;version&gt;1.6.3 &lt;/dependency&gt;

    jsoup-1.10.3-API文档-中文版.zip

    赠送jar包:jsoup-1.10.3.jar; 赠送原API文档:jsoup-1.10.3-javadoc.jar; 赠送源代码:jsoup-1.10.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.10.3.pom; 包含翻译后的API文档:jsoup-1.10.3-javadoc-API...

    jsoup-1.11.3-API文档-中英对照版.zip

    赠送jar包:jsoup-1.11.3.jar; 赠送原API文档:jsoup-1.11.3-javadoc.jar; 赠送源代码:jsoup-1.11.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.11.3.pom; 包含翻译后的API文档:jsoup-1.11.3-javadoc-API...

    jsoup中文帮助文档

    jsoup 中文帮助文档 1. 解析和遍历一个html文档输入 2. 解析一个html字符串 3. 解析一个body片断 4. 根据一个url加载Document对象 5. 根据一个文件加载Document对象数据抽取 6. 使用dom方法来遍历一个Document对象 7...

    jsoup 1.7.1API chm

    jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。

    Android项目源码简单利用jsoup爬取学校内网数据

    本项目是一个基于安卓的简单利用jsoup爬取学校内网数据的教务系统app,设计的部分有:个人信息、课程表、考试时间、考勤信息、成绩查询、奖惩情况、开设课程、晚归违规等部分。主要思路就是利用jsoup爬数据把数据转化...

    jsoup-1.6.1.jar

    jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。

    IText、Jsoup jar包

    IText、Jsoup jar包

    jsoup.jar完整包

    java爬虫技术所需要的jar包,里面有jsuop技术相关的jar:chardet.jar、commons-lang.jar、commons-logging.jar、cpdetector.jar、httpclient-4.2.5.jar、httpcore-4.2.4.jar、jsoup-1.7.2.jar;;附加 htmlparser ...

    jsoup爬虫获取某网站的信息

    使用jsoup技术连接网站地址,通过改变参数获取网站div模块下的所有信息。通过hibernate技术保存到mysql数据库。项目中包括dbutil链接数据库的工具类,执行sql的helper工具类,获取网站div图片保存到本地的工具类信息...

    Jsoup 1.5.2 和jsoup 1.6

    Jsoup 1.5.2 和jsoup 1.6 开发包jar包,开发文档,源码包

    jsoup-1.11.3.jar

    Jsoup 爬虫相关技术,可在java项目中引入jar包,然后使用网页链接进行资源爬取

    Jsoup库文件;Jsoup解析Java包

    Jsoup库文件;Jsoup解析Java包

    JsoupAPI(jsoup帮助文档)

    JsoupAPI jsoup最新版帮助文档(1.10.2)

Global site tag (gtag.js) - Google Analytics