解析html中的table

陈小兵

浏览: 138446 次
性别:
来自: 深圳

最近访客更多访客>>

zty461217

liuxiao723846

LinApex

pearonly1a1a

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Web综合

解析html中的table

package com.web.test;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 * 解析HTML
 * @author chenxiaobing
 *
 */
public class ReadHtml {

	 

	public static void main(String[] args) throws IOException {

	    //1.网页HTML
		String strUrl="http://www.usd-cny.com/";
	    URL url=new URL(strUrl);
	    InputStreamReader isr=new InputStreamReader(url.openStream());
	    BufferedReader br=new BufferedReader(isr);

	    //2.本地HTML
	   // File f=new File("fortest.htm");
	    //输入流
	   // InputStreamReader isr1=new InputStreamReader(new FileInputStream(f));
	   // BufferedReader br=new BufferedReader(isr1);

	    //获取html转换成String

	    String s;

	    String AllContent="";

	    while((s=br.readLine())!=null)

	    {

	     AllContent=AllContent+s;

	    }

	       //使用后HTML Parser 控件

	       Parser myParser;   

	       NodeList nodeList = null;   

	       myParser =Parser.createParser(AllContent, "utf-8");   

	       NodeFilter tableFilter = new NodeClassFilter(TableTag.class);   

	       OrFilter lastFilter = new OrFilter();   

	       lastFilter.setPredicates(new NodeFilter[] { tableFilter });   

	          try { 

	             //获取标签为table的节点列表

	             nodeList =myParser.parse(lastFilter);   

	            

	             //循环读取每个table

	             for (int i = 0; i <=nodeList.size(); i++) {   

	                  if (nodeList.elementAt(i)instanceof TableTag) {   

	                     TableTag tag = (TableTag)nodeList.elementAt(i);   
                          
                          System.out.println(tag.getChildrenHTML());
                          System.out.println("-----------------------------------------------------");
                          /* TableRow[] rows =tag.getRows();   

	                     System.out.println("----------------------table "+i+"--------------------------------");

	                     //循环读取每一行

	                      for (int j = 0; j <rows.length; j++) {   

	                          TableRow tr =(TableRow) rows[j];   

	                          TableColumn[] td =tr.getColumns();   

	                          //读取每行的单元格内容 

	                           for (int k = 0; k< td.length; k++) {   

	                         System.out.println(td[k].getStringText());//（按照自己需要的格式输出）

	                           }

	                      }*/   

	                  }   

	              }   

	    

	          } catch (ParserException e) {   

	              e.printStackTrace();   

	         }

	}

	}

分享到：

解析html | 解析html获取imag路径

2012-04-08 23:05
浏览 4926
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

解析html中的table

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

解析html中的table

评论

发表评论

相关推荐

解析html

解析html获取imag路径

JAVA中使用Htmlparse解析HTML文档

java将后台list传给js数组

堆与栈的区别

Jquery使用AJAX同步处理数据的方法

模态窗口

Javascript 多浏览器兼容性问题及解决方案

jquery 与prototype 中ajax的应用

DIV常用样式

最近访客更多访客>>