`
Sayler
  • 浏览: 13743 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Tidy

阅读更多

自己写的一个程序需要从网页抓取数据,思路是将网页转换成XML 文件,然后用调用java读xml的方法解析内容。

问题是网页通常都写的不规范,不能转成标准xml。

Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。
通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。

http://sourceforge.net/projects/jtidy/

例子:
 public static Document genDocFromUrl(String urlAddress) throws Exception{
  // 设置 tidy ,准备转换
  Tidy tidy = new Tidy();
  tidy.setXmlOut(true); // 输出格式 xml
  tidy.setDropFontTags(true); // 删除字体节点
  tidy.setDropEmptyParas(true); // 删除空段落
  tidy.setFixComments(true); // 修复注释
  tidy.setFixBackslash(true); // 修复反斜杆
  tidy.setMakeClean(true); // 删除混乱的表示
  tidy.setQuoteNbsp(false); // 将空格输出为  
  tidy.setQuoteMarks(false); // 将双引号输出为 "
  tidy.setQuoteAmpersand(true); // 将 & 输出为 &
  tidy.setShowWarnings(false); // 不显示警告信息

  
  URL url = new URL(urlAddress);
  URLConnection uc = url.openConnection(); // 建立连接
  Document doc = tidy.parseDOM( uc.getInputStream() ,null ); // 通过 JTidy 将 HTML 网页解析为

  return doc;
 }

 

分享到:
评论

相关推荐

    tidy2.dll免费下载

    tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载tidy2.dll免费下载

    Tidy2.dll for Notepad++ HTML format

    自己用的Notepad++ HTML格式化插件Tidy2。 下载后,直接将dll复制到 C:\Program Files (x86)\Notepad++\plugins 重启Notepad++ 菜单栏-》插件 中就可以看到Tidy2。 拿走不谢谢。

    Tidy2.dll安装

    本人亲测,插件绝对可用,内含tidy2安装介绍

    Tidy Tile Mapper v1.4.4

    Tidy Tile Mapper is an easy-to-use, intuitive and powerful tile-based game creator for Unity, perfect for creating both 2D and 3D tile-based games. See the website, watch the videos. API ...

    Notepad++ 插件tidy2,格式化HTML,64位

    Notepad++ 插件tidy2,格式化HTML,64位

    Tidy Tile Mapper V1.4.6

    Tidy Tile Mapper is an easy-to-use, intuitive and powerful tile-based game creator for Unity, perfect for creating both 2D and 3D tile-based games. See the website, watch the videos. API documentation...

    CSS Tidy 1.3 简体中文改进版

    http://csstidy.sourceforge.net/ CSS Tidy 是一款优秀的 CSS 格式化和精简优化程序,运行在 PHP 环境中, 非常方便部署和使用。 这是根据当前主流的 1.3 版改进的。 进一步整理完善了一些界面语言。 改进了输出成文件...

    notepad++ HTML 插件 Tidy2 (只适用于64位Windows操作系统)

    notepad++ HTML 插件tidy2,适用于64位Windows系统,兼容最新版本notepad++

    HTML Tidy 中文手册

    Tidy - 一个验证,纠正,美化HTML文件的工具. 原创翻译,CSDN首发

    html tidy c++库

    html tidy c++库,封装了html tidy的c++库,可以建立网页DOM模型。

    Notepad++ Tidy2

    Notepad++ Tidy2.dll下载 格式化html代码插件。很有用

    Geany中的tidy配置完成成品

    把1.bat放入c:\1.bat 然后把 tidy.conf放入c:\tidy.conf 编译命令使用c:\1.bat %d\%f 虚拟终端cmd.exe /q /c %c其实一样 然后定义一个快捷键,随意 就可以了享受自动格式化代码功能吧

    Notepad++ Tidy2 插件

    HTML Tidy with support for HTML5. Tidy up HTML or XML, pretty print. 下载Tidy2以后,解压把Tidy2.dll放到 Notepad++安装目录plugins目录下。重启Notepad++

    Bo-Blog tidy模板

    Bo-Blog tidy模板

    vl-simplenn-tidy.m

    该资源为vl_simplenn_tidy.m,欢迎下载使用哦! 注明:DnCNN-matlab版本测试代码文件utilities中需要,下载好,复制粘贴到utilities文件中即可!

    httpunit.jar tidy.jar

    好不容易找齐。与大家共享。 包括:httpunit.jar.zip httpunit-1.5.3.jar.zip Tidy.jar httpunit-1.6.jar.zip 可用于不同版本的JDK环境

    Tidy2 for Notepad++ 7 64位

    Tidy2 for Notepad++ 7 64位 Tidy2.dll tidy.dll 1.只适用于Windows 64位系统; 2.将tidy.dll拷到 C:\Windows\System32 下; 3.将Tidy2.dll拷到Notepad ++ 64位 安装目录plugins下即可。

    Notepad++ Tidy2.dll 格式化html代码

    Notepad++ Tidy2.dll 格式化html代码及配置项说明介绍

    Notepad++最新版tidy2插件仅64位可用

    Notepad++2019.1.1 最新版和tidy2插件,仅64位可用,仅64位可用,仅64位可用

    Notepad++格式化html代码插件Tidy2.dll

    1、下载完之后 我们把解压到Tidy2.dll放到\Notepad++\plugins(安装目录的plugins下) 2、然后重启 Notepad++即可使用 3、需要格式化代码时,点击:Notepad++菜单->插件->Tidy2->Tidy (config1)

Global site tag (gtag.js) - Google Analytics