htmlparser解析html分页

cfan_haifeng

浏览: 120068 次
性别:
来自: 郑州

最近访客更多访客>>

ganxueyun

wufei123

psuqgyy1

xinlingting

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

零零碎碎

htmlparser 解析 html 分页

在编写cms内容标签时有这样一种情况：

1.数据中内容字段存储结构如下

 
  <div>我是<b>第1页 </b>啊</div>
  <div class="page">1</div>

  <div>我是<b>第2页</b>啊</div>
  <div class="page">2</div>

  <div>我是<b>第3页</b>啊</div>
  <div class="page">3</div>

  <div>我是<b>第4页</b>啊</div>
  <div class="page">4</div>

2.其中 <div class="page">1,2,3,</div>是分页标签。要做到就是根据这个分页标签实现分页，即把 <div>我是<b>第1页 </b>啊</div> 给提取出来。输出结果如下：

取第1页: <div>我是<b>第1页</b>啊</div>
取第2页: <div>我是<b>第2页</b>啊</div>
取第3页: <div>我是<b>第3页</b>啊</div>
取第4页: <div>我是<b>第4页</b>啊</div>

java代码如下：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class PageTagParser {
	/**
	 * @param args
	 * @throws ParserException
	 */
	public static void main(String[] args) throws ParserException {

		String fileName = "E:/workspace/Test_htmlparser/res/test.html";
		// fileName =
		// "E:/workspace/Test_htmlparser/res/test_un_page_tag.html";//没分页标签
		String inputHTML = readFileByLines(fileName);
		// System.out.println("inputHTML:" + inputHTML);

		PageTagParser p = new PageTagParser(inputHTML);
		p.parserInputHTMLByPageTag();// 分析
		for (int currPageNum = 1; currPageNum <= p.getSumPageSize(); currPageNum++) {
			System.out.println("取第" + currPageNum + "页:"
					+ p.getContentByCurrPageNum(currPageNum));

		}

		//
	}

	private Node[] nodes;
	private int sumPageSize;
	private String inputHTML;

	/**
	 * 获取总页数
	 * 
	 * @return
	 */
	public int getSumPageSize() {
		return sumPageSize;
	}

	/**
	 * 根据分页标签分析HTML
	 * 
	 * @param inputHTML
	 * @param currPageNum
	 * @throws ParserException
	 */
	public void parserInputHTMLByPageTag() throws ParserException {
		Parser parser;
		NodeFilter filter;

		parser = new Parser();
		NodeFilter filterTag = new TagNameFilter("div");
		NodeFilter filterAttribute = new HasAttributeFilter("class", "page");

		filter = new AndFilter(new NodeFilter[] { filterTag, filterAttribute });

		// parser.setResource("http://www.baidu.com");
		// parser.setResource("E:/workspace/Test_htmlparser/res/test.html");
		parser.setInputHTML(inputHTML);

		NodeList nodeList = parser.parse(filter);
		nodes = nodeList.toNodeArray();

		// System.out.println(parser.parse(filter));

		// System.out.println("nodes.length:" + nodes.length);
		// System.out.println(nodes[0]);

		if (null == nodes || 0 == nodes.length) {
			sumPageSize = 1;
		} else {
			sumPageSize = nodes.length;
		}

	}

	/**
	 * 根据页面获取页面
	 * 
	 * @param currPageNum
	 * @return
	 */
	public String getContentByCurrPageNum(int currPageNum) {

		// System.out.println(parser.parse(filter));

		// System.out.println("nodes.length:" + nodes.length);
		// System.out.println(nodes[0]);

		if (null == nodes || 0 == nodes.length) {
			System.out.println("没有分页标签！");
			return inputHTML;
		} else if (1 >= currPageNum) {// 取第一页
			// System.out.println("取第一页！");
			return inputHTML.substring(0, nodes[0].getStartPosition());
		} else {

			// beginIndex这一点写的有点龌龊了，getEndPosition()返回的是<div>的后面位置不是</div>的后面位置，小郁闷
			Node beginNode = nodes[currPageNum - 2];
			int beginIndex = beginNode.getStartPosition()
					+ beginNode.toHtml().length();

			return inputHTML.substring(beginIndex, nodes[currPageNum - 1]
					.getStartPosition());
		}

		// System.out.println());
		// return inputHTML;
	}

	public PageTagParser(String inputHTML) {
		super();
		this.inputHTML = inputHTML;
	}

	/**
	 * 读取文件（非重点）
	 */
	public static String readFileByLines(String fileName) {
		File file = new File(fileName);
		StringBuilder sb = new StringBuilder();
		BufferedReader reader = null;
		try {
			// System.out.println("以行为单位读取文件内容，一次读一整行：");
			reader = new BufferedReader(new FileReader(file));
			String tempString = null;
			int line = 1;
			// 一次读入一行，直到读入null为文件结束
			while ((tempString = reader.readLine()) != null) {
				// 显示行号
				// System.out.println("line " + line + ": " + tempString);
				sb.append(tempString);
				line++;
			}
			reader.close();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if (reader != null) {
				try {
					reader.close();
				} catch (IOException e1) {
				}
			}
			return sb.toString();
		}
	}
}

呵呵，简单的就这么完成了，没缓存之类的……

Test_htmlparser.rar (306.3 KB)
下载次数: 45

分享到：

lucene-wiki翻译：如何提高索引速度-1 | lucene-wiki翻译-(lucene 常见问题提醒)L ...

2011-12-20 11:09
浏览 2037
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser解析html分页

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

htmlparser解析html分页

评论

发表评论

相关推荐

tomcat-指定域名且不含应用名

tomcat6 同时监听多个端口方法，如下所示（其中一个还是ssl）

linux-squid 配置安装

nginx: [emerg] "proxy_cache_path" directive is not allowed here..

VMWare ESXi,5.1.0 1065491 评估期60天

AES加密、解密（linux、window加密解密效果一致，支持中文）

验证Apache中 RewriteCond 中or 、and逻辑

spring-发送email

数据库操作有多慢

SWFUploadv.2.2.0上传-上传行为（动作）控制

SWFUploadv.2.2.0上传-如何判断是否有新文件上传

SWFUploadv.2.2.0上传-java后台代码

ehcache介绍

FreeMarker学习代码小结

最近访客更多访客>>