htmlparser应用

步青龙

浏览: 291615 次
性别:
来自: 杭州

最近访客更多访客>>

Franciswmf

wangchen.ily

jzwjzwjzw11

flyfoxs

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Java面试
浏览量：0

文章分类

社区版块

存档分类

博客分类：

Java常识小积累

应用服务器 .net SUN

package com.util.md5;

import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import com.sun.corba.se.spi.orbutil.fsm.State;
/**
 *  用HTMLparser抓取img标签的路径
 * @author Administrator token@token.com
 * @param content:要爬取的文本
 * @return 返回SRC路径改为服务器路径的文本
 * @throws Exception：io异常
 */
public class Htmlparserutil {
	/**
	 * example : new Htmlparserutil().parserto("<img src = 'www.baidu.com'/><a><a/>","D:\test");
	 * @param contentString  要取img标签的内容
	 * @param pathString    要存到服务器的路径
	 */
	public static  String parserto(String contentString,String pathString,String dispPath)  {
		String  stringBuffer=null;
		try {
			List list = new ArrayList();
			Parser parser = Parser.createParser(contentString, "UTF-8");
				NodeList nodeList = parser
					.extractAllNodesThatMatch(new NodeFilter() {
						public boolean accept(Node node) {
							if (node instanceof ImageTag)// <img>标记
								return true;
							return false;
						}
					});
			for (int i = 0; i < nodeList.size(); i++) {
				ImageTag n = (ImageTag) nodeList.elementAt(i);
				list.add(n.getImageURL());
				int start = 0;
				start = n.getImageURL().lastIndexOf("/");
				String picname=n.getImageURL().substring(start,n.getImageURL().length());
				contentString=contentString.replace(n.getImageURL(), dispPath+picname);
				///////////////?????????
				if(n.getImageURL().indexOf("http://e.huisou.com")==1){
					contentString.replace("http://e.huisou.com","http://img.e.huisou.com");
				}
			}
			List<String> listImg = new ArrayList<String>();
			listImg.add(".jpg");
			listImg.add(".JPG");
			listImg.add(".jpeg");
			listImg.add(".JPEG");
			listImg.add(".bmp");
			listImg.add(".BMP");
			listImg.add(".gif");
			listImg.add(".GIF");
			listImg.add(".png");
			listImg.add(".PNG");
			Iterator ite = list.iterator();
			while (ite.hasNext()) {
				String content = (String) ite.next();
				for (int i = 0; i < listImg.size(); i++) {
					if (content.contains(listImg.get(i))) {
						content = content.substring(0, content.indexOf(listImg
								.get(i))
								+ listImg.get(i).length());	
					}
				}
				URL u = new URL(content);
				URLConnection uc = u.openConnection();
				InputStream in = uc.getInputStream();
				String name = content.substring(content.lastIndexOf("/") + 1,
						content.length());
				OutputStream out = new FileOutputStream(pathString + name);
				byte[] buffer = new byte[1024];
				while (in.read(buffer) > 0) {
					out.write(buffer);
				}
				out.flush();
				out.close();
				in.close();
			}
		} catch (Exception e) {
		}
		return contentString;
	}
	/**
	 * 替换文本标签迭代
	 * @param contentString
	 * @return
	 * @throws ParserException
	 */
	public static  String parserto(String contentString) throws ParserException  {
		
		try {
			Parser parser = Parser.createParser(contentString, "UTF-8");
				NodeList nodeList = parser
					.extractAllNodesThatMatch(new NodeFilter() {
						public boolean accept(Node node) {
							if (node instanceof LinkTag)//
								return true;
							return false;
						}
					});
			for (int i = 0; i < nodeList.size(); i++) {
				LinkTag n = (LinkTag) nodeList.elementAt(i);
//			
				contentString=contentString.replace(n.toHtml().toString(),n.getLinkText());
			}
		} catch (Exception e) {
		}
		return contentString;
	}
	
	
	
	public static  String updateurl(String contentString)  {
			Parser parser = Parser.createParser(contentString, "UTF-8");
				NodeList nodeList = null;
				try {
					nodeList = parser
						.extractAllNodesThatMatch(new NodeFilter() {
							public boolean accept(Node node) {
								if (node instanceof ImageTag)
									return true;
								return false;
							}
					});
				} catch (ParserException e) {
					e.printStackTrace();
				}
			for (int i = 0; i < nodeList.size(); i++) {
				ImageTag n = (ImageTag) nodeList.elementAt(i);
				if (n.getImageURL().indexOf("http://e.huisou.com")==1) {
					System.out.println("start");
					contentString=contentString.replace(n.getImageURL().substring("http://e.huisou.com".length()),"http://img.e.huisou.com");
					System.out.println("end");
				}else{
					System.out.println("为找到外网的图片");
				}
			}
		return contentString;
	}
	 
	
}

分享到：

Eclipse不识别项目是Hibernate项目 | Javascript(不用Ajax)连接Oracle

2010-10-21 10:41
浏览 1612
评论(0)
分类:编程语言
查看更多

发表评论

文章已被作者锁定，不允许评论。

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

htmlparser应用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

htmlparser应用

评论

发表评论

相关推荐

双色球数据抓入Mysql

从零学Java-Java简介

疑难杂症-itext 横纵混编

itext对word处理合并单元格,处理图片,文档结构图

Java与Javascript 最近值

Java数学运算中 电脑计算和人的思维模式的差别

重构的重要性大于架构

Excel 参照列并单元格算法

Java基础误区

BigDecimal

朝花夕拾，Java基础回顾

ubuntu安装java

TCP和UDP

面试-编程-质数

Refecting in Java

博客设计

静态内部类-静态变量-非静态内部类之间的访问权限

代码规范约定

Java基础特殊应用

地址图片上传服务器

最近访客更多访客>>

Java数学运算中电脑计算和人的思维模式的差别