`
gcgmh
  • 浏览: 350017 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nekohtml的2个小例子

阅读更多
//获取网页里面的keywords和description
	public static void main(String[] argv) throws Exception {
		
		BufferedReader in = new BufferedReader(new FileReader("d:/163.html"));
		DOMParser parser = new DOMParser();
		 parser.setProperty(
			     "http://cyberneko.org/html/properties/default-encoding",
			     "gb2312");
		parser.parse(new InputSource(in));
		
		Document doc = parser.getDocument();
		NodeList list = doc.getElementsByTagName("META");
		for(int i = 0, n = list.getLength(); i < n ; i++){
			Element e = (Element) list.item(i);
			if(e.getAttribute("name").equalsIgnoreCase("keywords")){
				String keywords = e.getAttribute("content");
				System.out.println("keywords: " + keywords);
			}
			if(e.getAttribute("name").equalsIgnoreCase("description")){
				String description = e.getAttribute("content");
				System.out.println(description);
			}
		}
	} 

==========================================================================
//2、test使用DOMFragmentParser,提取所有正文,由于没有过滤一些没用的标签,所以会有没用的信息打印,这个可以再事先过滤一下。

	public static void main(String[] argv) throws Exception {
		DOMFragmentParser parser = new DOMFragmentParser();
		HTMLDocument document = new HTMLDocumentImpl();
		DocumentFragment fragment = document.createDocumentFragment();
		parser.parse("http://sports.sina.com.cn/f1/2009-09-21/20104599271.shtml", fragment);
		print(fragment, "");
	} 

	/** Prints a node's class name. */
	public static void print(Node node, String indent) {
		
//		System.out.println(indent + node.getClass().getName());
//		System.out.println(node.getNodeType());
		
		if (node.getNodeType() == Node.TEXT_NODE) {
			System.out.println(indent + node.getNodeValue());
		}
		Node child = node.getFirstChild();
		while (child != null) {
			print(child, indent + " ");
			child = child.getNextSibling();
		}
	} 

} 
分享到:
评论

相关推荐

    NekoHTML学习笔记.doc

    二、NekoHTML 的特点 NekoHTML 的主要特点是能够“修正”许多 HTML 文档中的错误,如缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。 三、NekoHTML 的使用方法 使用 NekoHTML 需要下载 ...

    NekoHTML技术

    NekoHTML技术预研说明,如何进行HTML页面解析,网页信息抽取

    NekoHTML学习笔记.rar

    NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。...NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。

    NekoHTML

    NULL 博文链接:https://thrillerzw.iteye.com/blog/1924229

    nekohtml-1.9.15.zip

    NekoHTML is written using the Xerces Native Interface (XNI) that is the foundation of the Xerces2 implementation. This enables you to use the NekoHTML parser with existing XNI tools without ...

    nekohtml解析器

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常...

    nekohtml-1.9.13.zip

    html解析器nekohtml-1.9.13.zip

    html解析例子,用nekohtml写的

    可以解析html的包,和例子,有源代码,很简单,不明白请看压缩包里的readme

    NeKoHTML 1.9.21

    NeKoHTML:用于java的html编辑。此文件是NeKoHTML V1.9.21版本的Java包合集。

    nekohtml包能够解析HTML文件

    NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的...

    NekoHTML的相关用法以及j代码包

    NekoHTML的相关用法以及代码包,以及详细的用法和实例。。。。。

    nekohtml.jar

    nekohtml.jar 解析html的jar包 非常的实用

    nekohtml.jar-nekohtml

    nekohtml.jar nekohtmlSamples.jar

    nekohtml-1.9.14源码及jar包

    nekohtml-1.9.14源码及jar包

    Java解析HTML之NekoHTML

    NULL 博文链接:https://rensanning.iteye.com/blog/1551831

    nekohtml+dom4j

    采用nekohtml补全html到xhtml,结合dom,运用dom4j,支持xpath,强大的网抓工具!

    nekoHtml 1.9.19 加 source 源码 html分析jar

    nekoHtml 1.9.19 加 source 源码 html分析jar

    nekohtml-1.9.18_

    nekohtml-1.9.18_

    nekohtml-0.9.4.jar

    nekohtml-0.9.4.jar nekohtml-0.9.4.jar nekohtml-0.9.4.jar

    nekohtml-1.9.21.jar

    需要的可以下载这个jar包,不要任何积分哦……

Global site tag (gtag.js) - Google Analytics