- 浏览: 1572031 次
- 性别:
- 来自: 杭州
-
文章分类
- 全部博客 (525)
- SEO (16)
- JAVA-EE-Hibernate (6)
- JAVA-EE-Struts (29)
- JAVA-EE-Spring (15)
- Linux (37)
- JAVA-SE (29)
- NetWork (1)
- CMS (14)
- Semantic Research (3)
- RIA-Flex (0)
- Ajax-Extjs (4)
- Ajax-Jquery (1)
- www.godaddy.com (0)
- SSH (34)
- JavaScript (6)
- SoftwareEngineer (9)
- CMMI (0)
- IDE-Myeclipse (3)
- PHP (1)
- Algorithm (3)
- C/C++ (18)
- Concept&Items (2)
- Useful WebSite (1)
- ApacheServer (2)
- CodeReading (1)
- Socket (2)
- UML (10)
- PowerDesigner (1)
- Repository (19)
- MySQL (3)
- SqlServer (0)
- Society (1)
- Tomcat (7)
- WebService (5)
- JBoss (1)
- FCKeditor (1)
- PS/DW/CD/FW (0)
- DesignPattern (11)
- WebSite_Security (1)
- WordPress (5)
- WebConstruction (3)
- XML|XSD (7)
- Android (0)
- Project-In-Action (9)
- DatabaseDesign (3)
- taglib (7)
- DIV+CSS (10)
- Silverlight (52)
- JSON (7)
- VC++ (8)
- C# (8)
- LINQ (1)
- WCF&SOA (5)
- .NET (20)
- SOA (1)
- Mashup (2)
- RegEx (6)
- Psychology (5)
- Stock (1)
- Google (2)
- Interview (4)
- HTML5 (1)
- Marketing (4)
- Vaadin (2)
- Agile (2)
- Apache-common (6)
- ANTLR (0)
- REST (1)
- HtmlAnalysis (18)
- csv-export (3)
- Nucth (3)
- Xpath (1)
- Velocity (6)
- ASP.NET (9)
- Product (2)
- CSS (1)
最新评论
-
lt26w:
理解成门面模式应该比较容易明白吧
FacadePattern-Java代码实例讲解 -
lt26w:
看下面的例子比较明白.
FacadePattern-Java代码实例讲解 -
javaloverkehui:
这也叫文档,别逗我行吗,也就自己看看。
HtmlCleaner API -
SE_XiaoFeng:
至少也应该写个注释吧。
HtmlCleaner API -
jfzshandong:
...
org.springframework.web.filter.CharacterEncodingFilter 配置
Cobra 简介:
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:
使用方法:
推荐做法是通过DocumentBuilderImpl类来使用Cobra HTML parser,如下所示:
HtmlParser 类也能被直接使用,尤其是在第三方Dom的实现中,或者在某个比较特殊的Dom节点(引 用innerHTML属性的地方)下解析HTML:
性能贴士
远程脚本和css文档载入速度对解析器的性能影响显著,有两种提高性能的方法:
相关信息
本文所涉及内容在 Cobra 0.98.1+版本中均有体现,相关下载信息和API文档:
SourceForge下载地址
Api文献
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:
- 实现了W3C HTML DOM Level 2接口。
- 能够解析某些浏览器所识别的 "street HTML"。
- 能够在headless模式中被使用。
- 当文档被解析时,对于Dom修改提供incremental notifications。
- 提供增量地修改Dom的方式,比如,设置一个页面元素的 "innerHTML" 属性。
- 识别Javascript.解析过程中对Dom的修改能够在结果Dom中反映出来,另外能实现对Javascript的禁用。
- 识别css2。
使用方法:
推荐做法是通过DocumentBuilderImpl类来使用Cobra HTML parser,如下所示:
Java
代码
- import org.lobobrowser.html.parser.*;
- import org.lobobrowser.html.test.*;
- import org.lobobrowser.html.*;
- import org.w3c.dom.*;
- ...
- UserAgentContext context = new SimpleUserAgentContext();
- DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
- //指定文档URI和字符集合
- Document document = dbi.parse(new InputSourceImpl(inputStream, documentURI, charset));
import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.*; import org.w3c.dom.*; ... UserAgentContext context = new SimpleUserAgentContext(); DocumentBuilderImpl dbi = new DocumentBuilderImpl(context); //指定文档URI和字符集合 Document document = dbi.parse(new InputSourceImpl(inputStream, documentURI, charset));
HtmlParser 类也能被直接使用,尤其是在第三方Dom的实现中,或者在某个比较特殊的Dom节点(引 用innerHTML属性的地方)下解析HTML:
Java
代码
- import org.lobobrowser.html.parser.*;
- import org.lobobrowser.html.test.*;
- import org.lobobrowser.html.*;
- import org.w3c.dom.*;
- import org.w3c.dom.html2.*;
- ...
- UserAgentContext context = new SimpleUserAgentContext();
- DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
- HTMLDocument document = (HTMLDocument) dbi.createDocument();
- ...
- HtmlParser parser = new HtmlParser(context, document);
- parser.parse(myReader, someParentNode);
import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.*; import org.w3c.dom.*; import org.w3c.dom.html2.*; ... UserAgentContext context = new SimpleUserAgentContext(); DocumentBuilderImpl dbi = new DocumentBuilderImpl(context); HTMLDocument document = (HTMLDocument) dbi.createDocument(); ... HtmlParser parser = new HtmlParser(context, document); parser.parse(myReader, someParentNode);
性能贴士
远程脚本和css文档载入速度对解析器的性能影响显著,有两种提高性能的方法:
- 禁用Javascripte 或 css
- 启用某些缓存机制
相关信息
本文所涉及内容在 Cobra 0.98.1+版本中均有体现,相关下载信息和API文档:
SourceForge下载地址
Api文献
<script type="text/javascript"><!--
google_ad_client = "pub-4348265167276910";
/* 468x60, 新闻频道文章 */
google_ad_slot = "1877597309";
google_ad_width = 468;
google_ad_height = 60;
//-->
</script><script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript">
</script><script src="http://pagead2.googlesyndication.com/pagead/expansion_embed.js"></script><script src="http://googleads.g.doubleclick.net/pagead/test_domain.js"></script><script>google_protectAndRun("ads_core.google_render_ad", google_handleError, google_render_ad);</script>
评论 共 5 条 发表评论
5 楼 wukele 2010-03-25 15:01 引用
[/b][b]
[b][/b][/i][i]
[/u][u]
[color=brown][/color]






4 楼 zhangyou1010 2010-02-04 11:38 引用
我做的一个程序中用这个支持JS.
转DOM还好. 执行JS时可能会报异常. 对JS语法支持与浏览器还有点差距.
我对cobra.jar做了一点点改动. 主要是请求超设置与字符转码.
转DOM还好. 执行JS时可能会报异常. 对JS语法支持与浏览器还有点差距.
我对cobra.jar做了一点点改动. 主要是请求超设置与字符转码.
3 楼 zhangyou1010 2010-02-04 11:38 引用
我做的一个程序中用这个支持JS.
转DOM还好. 执行JS时可能会报异常. 对JS语法支持与浏览器还有点差距.
我对cobra.jar做了一点点改动. 主要是请求超设置与字符转码.
转DOM还好. 执行JS时可能会报异常. 对JS语法支持与浏览器还有点差距.
我对cobra.jar做了一点点改动. 主要是请求超设置与字符转码.
2 楼 Eric_2007 2008-12-19 16:27 引用
哪位高手能详细写个帖子,像这类Html的解析工具该如何学习呢,感觉不知从哪下手,学习效率很低啊,难度很大啊!如有高手回应,本人将不胜感
激!
1 楼 fins 2008-03-27 09:07 引用
感兴趣 研究一下
基于这个应该可以开发一些类似自动测试的东西吧
发表评论
-
htmlunit 示例
2010-08-20 18:40 4409先下载依赖的相关JAR包:http://sourcefor ... -
HTMLParser的两种使用方法
2010-04-15 16:37 5434HTMLParser的两种使用方法 ... -
HtmlCleanner结合xpath用法
2010-04-15 13:24 3609文章分类:Java编程 ... -
基于Htmlparser的天气预报程序(续)
2010-04-14 13:53 1128zz:http://www.iteye.com/topic/6 ... -
httpclient(校内网)
2010-04-13 15:10 1355Java code <!-- C ... -
httpclient(校内网)
2010-04-13 15:10 1458httpclient(校内网),大家帮忙看看我的 http ... -
HTTPClient模拟登陆人人网
2010-04-13 14:58 1936zz: 目的: http://www.iteye. ... -
HtmlCleaner API
2010-04-13 13:40 4585HtmlCleaner API Create cleaner ... -
htmlcleaner惯用法
2010-04-13 13:39 1514Common usage Tipically the f ... -
htmlcleaner惯用法
2010-04-13 13:39 1593Common usage Tipically t ... -
htmlcleaner 使用示例.
2010-04-13 13:10 10086原文出处:http://blog.chenlb.com/200 ... -
http://htmlparser.com.cn/
2010-04-12 16:20 1093http://htmlparser.com.cn/ ... -
开源网络蜘蛛spider(转载)
2010-04-12 15:42 1370spider是搜索引擎的必须 ... -
基于Spindle的增强HTTP Spider
2010-04-12 15:33 1520zz:http://www.iteye.com/news ... -
用htmlparser分析并抽取正文
2010-04-12 15:26 1586我这次要介绍的是如何抽取正文,这部分是最为核心的.因为如果不能 ... -
HtmlParser初步研究
2010-04-12 15:18 966目的是快速入手,而不 ... -
基于Htmlparser的天气预报程序
2010-04-12 15:16 1116htmlparser是一个纯的java写的html解析的库,它 ...
相关推荐
15. **Cobra:Java HTML解析器**:Cobra可能是当时一个新的Java库,用于解析HTML文档,对于Web开发和数据抓取很有帮助。 这些内容反映了2008年Java社区的技术焦点和创新方向,包括框架的演进、开发工具的进步以及...
15. **Cobra:Java HTML解析器**:Cobra是用于解析HTML的Java库,对于处理网页内容和爬虫开发具有实用性。 这些内容展示了2008年Java技术生态的活跃度,包括框架的创新、IDE的改进、编程范式的讨论,以及对新技术和...
总的来说,Cobra是一个功能强大的HTML处理工具,适用于需要在Java环境中进行HTML解析、分析和呈现的应用场景。其全面的HTML、JavaScript和CSS支持,以及纯Java的实现,使它在各种项目中都有广泛的应用潜力。
总结来说,Cobra 0.98.4 是一个基于Rhino的HTML DOM解析器和渲染器,它支持HTML4、JavaScript和CSS2,适用于构建动态网页和AJAX应用。通过利用其强大的解析和操作HTML的能力,开发者可以更高效地处理网页内容,提升...
2. **创建解析器**:使用`org.htmlparser.Parser`类创建一个解析器实例。这是处理HTML文档的第一步。 3. **解析HTML**:调用`parse()`方法,传入HTML文件的输入流或字符串,将HTML文档加载到DOM中。 ```java ...
也是一个可识别JavascriptHTML解析器。 Lobo Evolution 2.0发布CHANGELOG:https://github.com/LoboEvolution/LoboEvolution/releases阅读Wiki:https://sourceforge.net/p/loboevolution/wiki/Home/ Javadoc站点:...
Lobo Evolution - Java Web 浏览器 Lobo Evolution 是 Lobo Browser 的一个分支。 该项目延续了路宝浏览器(lobochief)的工作。 Lobo Evolution 是一个可扩展的全 Java ... 也是一个支持 Javascript 的 HTML 解析器。
- 面试题中还提到了一些其他的技术细节,如XML解析、SQL Server数据库访问、移动应用开发等。 - 这些特性反映了Delphi作为一个全面的开发工具所具有的强大功能。 以上知识点总结了Borland面试题中涉及的主要技术...