最新文章列表

使用jsoup去解析历史在今天的html内容

package com.test; import java.net.URL; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /** *@Author:liangjilong ...
jilong-liang 评论(0) 有1077人浏览 2014-04-14 12:23

java操作html字符串

业务描述:在我们系统中要这样一个需求,我们会将html当作字符串保存在数据库中,然后再后期通过Java需要操作这个html比如增加一个文件框,改变其结构,添加事件。 解决方案:jsoup Java HTML解析器 使用方法: 1.导入jar包。可以使用maven帮你下载这个jar包和源码 <dependency> <groupId>org.jsoup</g ...
zc985552943 评论(0) 有5025人浏览 2014-04-10 10:47

使用htmlUnit和Jsoup获取163邮箱通讯录

import java.io.IOException;import java.net.URL;import java.util.ArrayList;import java.util.List; import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import com. ...
sunjing 评论(0) 有14779人浏览 2014-04-08 16:08

使用 jsoup 对 HTML 文档进行解析和操作

来源:https://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/   jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。本文主要介绍如何使用 jsoup 来进行常用的 HTML ...
laiahu 评论(0) 有450人浏览 2014-02-25 10:13

JAVA调用CSDN接口发博文

使用用户名密码登录以获取cookies,随后使用获得的cookies就可以进行诸如发博文等任意操作了。     import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.jsoup.Connection.Method; import org.jsoup.Connect ...
yangshangchuan 评论(5) 有10375人浏览 2014-02-16 16:02

采集电子报纸

项目托管于Github   1、接口 /** *报纸采集器 * @author 杨尚川 */ public interface PaperCollector { /** * 下载当日报纸,一个文件对应一个版面 * @return 报纸 */ List<File> collect(); /** ...
yangshangchuan 评论(0) 有4270人浏览 2013-12-28 17:27

使用JSoup+CSSPath采集和讯网人物信息

使用JSoup+CSSPath采集和讯网人物信息   代码见github   模型类:   public class Person { private String name; //基本信息 private Map<String, String> basicInfos; //教育经历 List<String> ...
yangshangchuan 评论(0) 有5837人浏览 2013-10-29 23:22

从github上下载android源码(已附脚本)

老早前就想下载android代码学习学习了,无奈android官方文档提供的方法,经尝试后发现完全不适合我,因为一旦中途断开就要重新下载,否则什么代码都看不到。而且不知道提供的那个网址被墙了还是怎样,经常连不上。换了android.googlesource.com还是差不多,代码一样下不下来。 不过经过一番努力还是有结果的,发现github有个项目是做了android.googlesource.co ...
貌似掉线 评论(0) 有13023人浏览 2013-09-02 11:48

Jsoup解析HTML代码标签与属性

package com.app.jsoup; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /** *@Author:liangjilong *@Date:2013-8 ...
jilong-liang 评论(0) 有2673人浏览 2013-08-08 23:06

使用jsoup解析http/https协议网页内容通用方法

import java.net.MalformedURLException; import java.net.URL; import java.security.SecureRandom; import java.security.cert.CertificateException; import java.security.cert.X509Certificate; import ja ...
hou_jian_yong 评论(1) 有13674人浏览 2013-08-01 18:28

Dom4j组装XML,Jsoup解析XML相互用

package com.app.duapp; import java.io.BufferedWriter; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; impor ...
jilong-liang 评论(0) 有2539人浏览 2013-07-22 23:29

jsoup的使用

  讲解:http://my.oschina.net/bigyuan/blog/98115      String str = "<p>xxxx <h2><font>hello";    Document doc = Jsoup.parse(str);   System.out.println(doc);      String c ...
xfy142305 评论(0) 有2119人浏览 2013-07-16 16:49

Spring quartz定时结合Jsoup和Dom4j使用解析百度地图API

  <?xml version="1.0" encoding="utf-8" ?> <GeocoderSearchResponse> <status>0</status> <result> <location> <lat>39.9834240714 ...
jilong-liang 评论(0) 有1748人浏览 2013-07-15 21:15

Jsoup解析百度音乐API的xml

package com.app.duapp; import java.net.URLEncoder; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Te ...
jilong-liang 评论(0) 有1612人浏览 2013-07-15 13:47

HttpURLConnection 和HttpClient+Jsoup处理标签抓取页面和模拟登录

   HttpURLConnection抓取 package com.app.html; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.i ...
jilong-liang 评论(0) 有4278人浏览 2013-07-11 13:45

jsoup 返回400错误分析

今天在用jsoup验证700多个网址是否能正常显示打开的时候,发现好多都返回了400状态码,手动打开这部分返回状态码的网址,发现部分是返回的404,部分能正常显示。真是奇怪了。然后google了一下,400到底是什么错误。400:(错误请求) 服务器不理解请求的语法。因为PM急着要结果,果断换成selenium,判断页面标题是否有NOT FOUND,结果正常。       完后,再看这个400, ...
qi_ling2005 评论(0) 有2279人浏览 2013-06-24 14:43

我来模仿iTeye登录(HttpClient)

1.利用HttpClient模拟iteye登录 package com.home.action.test.http; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.CookieHandler; import ja ...
lihao312 评论(1) 有3123人浏览 2013-06-05 13:49

菜鸟入门之网页数据抓取

有时候需要从网页上获取数据,比如别一些网页上的新闻获取到放到应用上,其实这也算是一个简单的网络爬虫。 一、使用流和正则表达式的方法 通过流的方式获取网页的数据同时用正则来筛选自己想要的数据。 我测试的网站是湖南师范大学翔网学术天地http://flyhigher.hunnu.edu.cn/channels/399.html 我们以获取标记的标题为例,查看网页的源码 我们可以发现所有标题 ...
raidyue 评论(1) 有5536人浏览 2013-05-04 21:53

jsoup解析html/根据关键词拿到论坛帖子信息

            以论坛《宽带山》为例,需要根据给定的关键词,取得关于该关键词的所有帖子,包括人气数,发帖主题,回复数,发表人,发表时间,帖子链接,帖子详细文本内容等。               详细代码如下: import java.util.ArrayList; import java.util.HashMap; import java.util.List; impor ...
jackjobs 评论(1) 有1588人浏览 2013-04-19 17:02

初次接触HttpClient4.0

HttpClient程序包是一个实现了 HTTP 协议的客户端编程工具包,要想熟练的掌握它,必须熟悉 HTTP协议。一个最简单的调用如下: Java代码   import java.io.IOException;    import org.apache.http.HttpResponse;    import org.apache.http.client.Cl ...
hejiajunsh 评论(0) 有3024人浏览 2013-03-19 16:01

最近博客热门TAG

Java(141745) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics