自己写的一个程序需要从网页抓取数据,思路是将网页转换成XML 文件,然后用调用java读xml的方法解析内容。
问题是网页通常都写的不规范,不能转成标准xml。
Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。
通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。
http://sourceforge.net/projects/jtidy/
例子:
public static Document genDocFromUrl(String urlAddress) throws Exception{
// 设置 tidy ,准备转换
Tidy tidy = new Tidy();
tidy.setXmlOut(true); // 输出格式 xml
tidy.setDropFontTags(true); // 删除字体节点
tidy.setDropEmptyParas(true); // 删除空段落
tidy.setFixComments(true); // 修复注释
tidy.setFixBackslash(true); // 修复反斜杆
tidy.setMakeClean(true); // 删除混乱的表示
tidy.setQuoteNbsp(false); // 将空格输出为
tidy.setQuoteMarks(false); // 将双引号输出为 "
tidy.setQuoteAmpersand(true); // 将 & 输出为 &
tidy.setShowWarnings(false); // 不显示警告信息
URL url = new URL(urlAddress);
URLConnection uc = url.openConnection(); // 建立连接
Document doc = tidy.parseDOM( uc.getInputStream() ,null ); // 通过 JTidy 将 HTML 网页解析为
return doc;
}
分享到:
相关推荐
tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载
自己用的Notepad++ HTML格式化插件Tidy2。 下载后,直接将dll复制到 C:\Program Files (x86)\Notepad++\plugins 重启Notepad++ 菜单栏-》插件 中就可以看到Tidy2。 拿走不谢谢。
本人亲测,插件绝对可用,内含tidy2安装介绍
Tidy Tile Mapper is an easy-to-use, intuitive and powerful tile-based game creator for Unity, perfect for creating both 2D and 3D tile-based games. See the website, watch the videos. API ...
Notepad++ 插件tidy2,格式化HTML,64位
Tidy Tile Mapper is an easy-to-use, intuitive and powerful tile-based game creator for Unity, perfect for creating both 2D and 3D tile-based games. See the website, watch the videos. API documentation...
http://csstidy.sourceforge.net/ CSS Tidy 是一款优秀的 CSS 格式化和精简优化程序,运行在 PHP 环境中, 非常方便部署和使用。 这是根据当前主流的 1.3 版改进的。 进一步整理完善了一些界面语言。 改进了输出成文件...
notepad++ HTML 插件tidy2,适用于64位Windows系统,兼容最新版本notepad++
Tidy - 一个验证,纠正,美化HTML文件的工具. 原创翻译,CSDN首发
html tidy c++库,封装了html tidy的c++库,可以建立网页DOM模型。
Notepad++ Tidy2.dll下载 格式化html代码插件。很有用
把1.bat放入c:\1.bat 然后把 tidy.conf放入c:\tidy.conf 编译命令使用c:\1.bat %d\%f 虚拟终端cmd.exe /q /c %c其实一样 然后定义一个快捷键,随意 就可以了享受自动格式化代码功能吧
HTML Tidy with support for HTML5. Tidy up HTML or XML, pretty print. 下载Tidy2以后,解压把Tidy2.dll放到 Notepad++安装目录plugins目录下。重启Notepad++
Bo-Blog tidy模板
该资源为vl_simplenn_tidy.m,欢迎下载使用哦! 注明:DnCNN-matlab版本测试代码文件utilities中需要,下载好,复制粘贴到utilities文件中即可!
好不容易找齐。与大家共享。 包括:httpunit.jar.zip httpunit-1.5.3.jar.zip Tidy.jar httpunit-1.6.jar.zip 可用于不同版本的JDK环境
Tidy2 for Notepad++ 7 64位 Tidy2.dll tidy.dll 1.只适用于Windows 64位系统; 2.将tidy.dll拷到 C:\Windows\System32 下; 3.将Tidy2.dll拷到Notepad ++ 64位 安装目录plugins下即可。
Notepad++ Tidy2.dll 格式化html代码及配置项说明介绍
Notepad++2019.1.1 最新版和tidy2插件,仅64位可用,仅64位可用,仅64位可用
1、下载完之后 我们把解压到Tidy2.dll放到\Notepad++\plugins(安装目录的plugins下) 2、然后重启 Notepad++即可使用 3、需要格式化代码时,点击:Notepad++菜单->插件->Tidy2->Tidy (config1)