Java抽取HTML内容

javapub

浏览: 3135693 次
性别:
来自: 北京

最近访客更多访客>>

yuanlinok

flyjava

kingbook123

linzi_422109

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HTML Java 正则表达式百度 JavaScript

利用Java抽取HTML中的内容当然不想JavaScript中那么简单（obj.innerHTML），但绝对是可以实现的，这里给大家介绍一种。

思路很直接：利用正则表达式配置html代码，然后删除这些代码。
当然还有一种方法是直接配置中文，这种方法虽然明显有问题，但对纯中文内容还是很准确。两种方法这里都提供。

我们需要配置的文字如下：

<td><a target=\"_blank\" href=\"http://www.baidu.com/baidu?cl=3&tn=baidutop10&fr=top1000&wd=%A1%B6%CC%C6%C9%BD%B4%F3%B5%D8%D5%F0%A1%B7%B9%AB%D3%B3\">《唐山大地震》公映</a></td>

我们需要从中抽取出“唐山大地震》公映”

方法一：查找出html标签，然后删除

public void findContent(){
		// 配置html标记。
		Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");
		String html = "<td><a target=\"_blank\" href=\"http://www.baidu.com/baidu?cl=3&tn=baidutop10&fr=top1000&wd=%A1%B6%CC%C6%C9%BD%B4%F3%B5%D8%D5%F0%A1%B7%B9%AB%D3%B3\">《唐山大地震》公映</a></td>";
		Matcher m = p.matcher(html);

		String rs = new String(html);
		// 找出所有html标记。
		while (m.find()) {
			System.out.println(m.group());
			// 删除html标记。
			rs = rs.replace(m.group(), "");
		}
		System.out.println("-----");
		System.out.println(rs);
	}

方法二：匹配双字节字符(包括汉字在内)：[^\x00-\xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

public void findContent2(){
		// 匹配双字节字符(包括汉字在内)
		Pattern p = Pattern.compile("[^\\x00-\\xff]");
		String html = "<td><a target=\"_blank\" href=\"http://www.baidu.com/baidu?cl=3&tn=baidutop10&fr=top1000&wd=%A1%B6%CC%C6%C9%BD%B4%F3%B5%D8%D5%F0%A1%B7%B9%AB%D3%B3\">《唐山大地震》公映</a></td>";
		Matcher m = p.matcher(html);

		while (m.find()) {
			System.out.print(m.group());
		}
	}

好了，以上是我提供的两种方法，希望对大家有些帮助，也希望大家提供更多更好的方法。

文章地址：http://javapub.iteye.com/blog/719658

2
顶

3
踩

分享到：

Java C格式输入利用printf函数 | 文件流读文件乱码的正确解决方案

2010-07-23 13:44
浏览 6124
评论(4)
分类:编程语言
查看更多

4 楼 javapub 2010-07-23

mercyblitz 写道

javapub 写道

利用Split效率低一些吧，而且利用Split分割的代码量也不少，判断也不少。

在很多地方需要中间结果，再处理。

明白，我这里提供的方法，其实类似于一个网页爬虫，它不在乎你html里的东西，只在乎内容。

public class Test001 {
	List<String> rsList = new ArrayList<String>();
	private Test001() {
		try {
			loadHtml();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

	private void loadHtml() throws IOException {
		// 定义一个url类的实例。
		URL url = new URL("http://top.baidu.com/buzz/top10.html");
		// 以特定格式读取文件流。
		InputStreamReader isr = new InputStreamReader(url.openStream(),
				"gb2312");
		BufferedReader br = new BufferedReader(isr);
		String s;

		boolean beginFind = false;
		while (null != (s = br.readLine())) {
			if ("<tbody id=\"listdata\">".equals(s.trim())) {
				beginFind = true;
			} else if ("</tbody>".equals(s.trim())) {
				break;
			}

			if (beginFind) {
				if(s.trim().startsWith("<td><a")){
					rsList.add(findContent(s.trim()));
				}
			}
		}
		
		for (int i = 0; i < rsList.size(); i++) {
			System.out.println(rsList.get(i));
		}
	}

	public String findContent(String html) {
		// 配置html标记。
		Pattern p = Pattern.compile("<(\\S*?)[^>]*>.*?| <.*? />");
		Matcher m = p.matcher(html);

		String rs = new String(html);
		// 找出所有html标记。
		while (m.find()) {
			// 删除html标记。
			rs = rs.replace(m.group(), "");
		}
		return rs;
	}

	public static void main(String[] args) throws IOException {
		new Test001();
	}
}

利用上面的代码，可以将百度风云榜里的内容完整拿出来。

3 楼 mercyblitz 2010-07-23

javapub 写道

利用Split效率低一些吧，而且利用Split分割的代码量也不少，判断也不少。

在很多地方需要中间结果，再处理。

2 楼 javapub 2010-07-23

利用Split效率低一些吧，而且利用Split分割的代码量也不少，判断也不少。

1 楼 mercyblitz 2010-07-23

第一种方法太难了，个人认为做Split的正则分割 >< 之间的好些。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论