`
yangfuchao418
  • 浏览: 161656 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

使用Jsoup 过滤HTML

阅读更多

 我们在解析HTML 或者爬取网页信息时,一般使用htmlparser,可惜这个有好多硬伤,或者使用htmlcleaner来解析,爬取网页,除了这些其实我们还有其他好的选择,过滤html标签时我们常常需要写大量的正则表达式,这对于一个基本程序员来说是个头痛的问题。下面来看看Jsoup的基本使用:

 

public static void  htmlTrimToTxt(){
            String html = "<p>  asdasdasda</p><p>\n\r\tdd</p>你好,我是来自<a href='http://www.iteye.com/' target='_blank'>社区</a>的灌水大王。";
             String unsafe = "\r\n<h1>哈哈</h1><b>sdds< /b><code>34433434</code><img src='http://i.jpg'></img><p><a href='http://example.com/' onclick='stealCookies()'>Link</a></p>";
             Whitelist whiteList=new Whitelist();
             String safe = Jsoup.clean(unsafe, Whitelist.basicWithImages()); //定义白名单,留下一些标签
                  System.out.println(safe);
              System.out.println(Jsoup.parse(html).text()); //全部过滤

   1.        }
0
0
分享到:
评论

相关推荐

    java的jsoup

    项目文件夹下jsoup/src/com/start.java是用jsoup过滤xss的例子 src下有jar包

    jsoup在java中解析dom

    jsoup在java代码中高效解析html字符串为dom结构,并可实现对dom结构的灵活操作,特别适合移动端返回字段为html形式的解析过滤处理

    jsoup-1.7.3-javadoc

    3 一个Element包含一个子节点集合 并拥有一个父Element 他们还提供了一个唯一的子元素过滤列表 从一个URL加载一个Document 从一个文件加载一个文档 使用DOM方法来遍历一个文档 等等功能"&gt;其解析器能够尽最大...

    jsoup-1.7.3源代码

    3 一个Element包含一个子节点集合 并拥有一个父Element 他们还提供了一个唯一的子元素过滤列表 从一个URL加载一个Document 从一个文件加载一个文档 使用DOM方法来遍历一个文档 等等功能"&gt;html最佳解析器 (1 7 ...

    XpathDemo.zip

    JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument;JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点 HtmlCleaner是一个开源的Java语言的Html文档解析器。...

    文本过滤NHtmlFilter v1.0源码2012811

    开源代码NHtmlFilter 过滤Html危险脚本 防止XSS攻击 如何防止XSS攻击,在.net做web开发上真的很弱。 底层框架,基础类库是很不完善。又是做互联网应用,安全总是要考虑的吧。 今天要解决的一个小问题就是过滤掉用户...

    JAVA工具类

    JsoupUtils - 基于jsoup过滤html标签 MoneyUtils - 获取大写金额 NumberUtils - 数字工具类 PinyinUtils - 汉字转拼音 media MediaUtils - 基于ffmpeg,qtfaststart,yamdi的多媒体工具类 net AttachmentUtils -...

    InternetWorm:网络爬虫:运用了Java、Jsoup等技术爬取网站上的图书信息,readme里面有该系统详情介绍

    2、该系统运用了Java、Jsoup等技术进行对网站上数据的主题爬取操作,可以定向地爬取用户所需的图书信息,过滤掉无用的信息。3、将爬取到的数据信息存储到MySQL数据库中。4、将存储到数据库的数据展示到网页上便于...

    HttpURLConnection获取网页内容取得节点

    jsoup是一个Java HTML Parser。能够从URL、文件或字符串解析HTML。利用DOM traversal或CSS selectors查找和抽取数据。能够操作HTML元素,属性和文本。能够依据一个白名单过滤用户提交的内容。

    微信小程序-小程序商店

    Zblog a java blog 核心功能 文章/页面发布、分类、统计阅读次数。 提供文章形式的RSS聚合。 提供链接的添加、归类功能。...其它 Jsoup(xss过滤)、fastjson、IKAnalyzer 前端 jQuery js框架 Bootstrap 后台

    java项目源码之网络爬虫(蜘蛛)的实现.rar

    常用的解析技术包括正则表达式、HTML解析器(如Jsoup)、XPath等。 链接管理:爬虫会管理已抓取的链接,并根据一定的策略进行URL的过滤、去重、排序等操作,以确保抓取效率和数据的完整性。 数据存储:爬虫将抓取...

    Java博客系统Zblog2.zip

    其它 Jsoup(xss过滤)、fastjson、IKAnalyzer 前端 jQuery js框架 Bootstrap 后台界面 UEditor/EpicEditor 编辑器 WebUploader 文件上传 font-wesome/icomoon.io 字体/图标 支持浏览器 前台 ie...

    基于Java和Python的爬虫项目实战源码.zip

    使用非极大值抑制法确定镜头边界系数极大值并排序,以实现基于镜头边界系数的关键帧提取 JMF(Java视频处理): 功能 a)在Java Applet和应用程序中播放贵重物品媒体文件,如AVI、MPEG、WAV等; b)可以播放从互联网...

    Crawler:关于Java和Python爬虫那些事儿

    解析HTML网页---Jsoup Maven中配置: &lt;dependency&gt; &lt;groupId&gt;org.jsoup&lt;/gorup&gt; &lt;artifactId&gt;jsoup&lt;/artifactId&gt; &lt;version&gt;1.10.3&lt;/version&gt; &lt;/dependency&gt; 正则表达式: 对URL进行过滤,只提取符合特定格式...

    xmg-gecco-demo-master.zip

    gecco的内容抽取都是直接映射到java bean的属性中,利用注解可以方便的注入页面中的各种信息包括html页面内容、Ajax请求、javascript变量、request信息等 一、Html页面内容抽取 jsoup语法介绍 Selector选择器概述 ...

    Java开源的下一代社区平台Symphony.zip

    jsoup:Java HTML 解析器 pegdown:Java Markdown 处理库 Apache Commons:Java 工具库集 Jodd:Java 工具库集 emoji-java:Java Emoji 处理库 User-Agent-Utils:Java User-Agent 解析库 Druid:Java 数据库...

    norkts-spider:网络爬虫的初步实现

    程序中使用了Jsoup作为HTML解析器 要实际使用,首先需要给ProcessThread添加Processor,如果需要URL过滤,还需要添加URL Filter HTTP请求的客户端是apache httpclient TODO: 目前中文URL httpclient会报错,需要做...

    matlab饼图程序代码-zaopingshujufenxi:招聘数据分析案例

    fastjson(json数据解析),jsoup(解析地址信息时调用api用到),springbooot(javaweb框架),echarts(可视化库),vue(构建用户界面的框架) 使用软件/工具:idea,webstom,maven,visual studio code 2 思路...

    java开源包8

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包1

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

Global site tag (gtag.js) - Google Analytics