我们在解析HTML 或者爬取网页信息时,一般使用htmlparser,可惜这个有好多硬伤,或者使用htmlcleaner来解析,爬取网页,除了这些其实我们还有其他好的选择,过滤html标签时我们常常需要写大量的正则表达式,这对于一个基本程序员来说是个头痛的问题。下面来看看Jsoup的基本使用:
public static void htmlTrimToTxt(){
String html = "<p> asdasdasda</p><p>\n\r\tdd</p>你好,我是来自<a href='http://www.iteye.com/' target='_blank'>社区</a>的灌水大王。";
String unsafe = "\r\n<h1>哈哈</h1><b>sdds< /b><code>34433434</code><img src='http://i.jpg'></img><p><a href='http://example.com/' onclick='stealCookies()'>Link</a></p>";
Whitelist whiteList=new Whitelist();
String safe = Jsoup.clean(unsafe, Whitelist.basicWithImages()); //定义白名单,留下一些标签
System.out.println(safe);
System.out.println(Jsoup.parse(html).text()); //全部过滤
1. }
分享到:
相关推荐
项目文件夹下jsoup/src/com/start.java是用jsoup过滤xss的例子 src下有jar包
jsoup在java代码中高效解析html字符串为dom结构,并可实现对dom结构的灵活操作,特别适合移动端返回字段为html形式的解析过滤处理
3 一个Element包含一个子节点集合 并拥有一个父Element 他们还提供了一个唯一的子元素过滤列表 从一个URL加载一个Document 从一个文件加载一个文档 使用DOM方法来遍历一个文档 等等功能">其解析器能够尽最大...
3 一个Element包含一个子节点集合 并拥有一个父Element 他们还提供了一个唯一的子元素过滤列表 从一个URL加载一个Document 从一个文件加载一个文档 使用DOM方法来遍历一个文档 等等功能">html最佳解析器 (1 7 ...
JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument;JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点 HtmlCleaner是一个开源的Java语言的Html文档解析器。...
开源代码NHtmlFilter 过滤Html危险脚本 防止XSS攻击 如何防止XSS攻击,在.net做web开发上真的很弱。 底层框架,基础类库是很不完善。又是做互联网应用,安全总是要考虑的吧。 今天要解决的一个小问题就是过滤掉用户...
JsoupUtils - 基于jsoup过滤html标签 MoneyUtils - 获取大写金额 NumberUtils - 数字工具类 PinyinUtils - 汉字转拼音 media MediaUtils - 基于ffmpeg,qtfaststart,yamdi的多媒体工具类 net AttachmentUtils -...
2、该系统运用了Java、Jsoup等技术进行对网站上数据的主题爬取操作,可以定向地爬取用户所需的图书信息,过滤掉无用的信息。3、将爬取到的数据信息存储到MySQL数据库中。4、将存储到数据库的数据展示到网页上便于...
jsoup是一个Java HTML Parser。能够从URL、文件或字符串解析HTML。利用DOM traversal或CSS selectors查找和抽取数据。能够操作HTML元素,属性和文本。能够依据一个白名单过滤用户提交的内容。
Zblog a java blog 核心功能 文章/页面发布、分类、统计阅读次数。 提供文章形式的RSS聚合。 提供链接的添加、归类功能。...其它 Jsoup(xss过滤)、fastjson、IKAnalyzer 前端 jQuery js框架 Bootstrap 后台
常用的解析技术包括正则表达式、HTML解析器(如Jsoup)、XPath等。 链接管理:爬虫会管理已抓取的链接,并根据一定的策略进行URL的过滤、去重、排序等操作,以确保抓取效率和数据的完整性。 数据存储:爬虫将抓取...
其它 Jsoup(xss过滤)、fastjson、IKAnalyzer 前端 jQuery js框架 Bootstrap 后台界面 UEditor/EpicEditor 编辑器 WebUploader 文件上传 font-wesome/icomoon.io 字体/图标 支持浏览器 前台 ie...
使用非极大值抑制法确定镜头边界系数极大值并排序,以实现基于镜头边界系数的关键帧提取 JMF(Java视频处理): 功能 a)在Java Applet和应用程序中播放贵重物品媒体文件,如AVI、MPEG、WAV等; b)可以播放从互联网...
解析HTML网页---Jsoup Maven中配置: <dependency> <groupId>org.jsoup</gorup> <artifactId>jsoup</artifactId> <version>1.10.3</version> </dependency> 正则表达式: 对URL进行过滤,只提取符合特定格式...
gecco的内容抽取都是直接映射到java bean的属性中,利用注解可以方便的注入页面中的各种信息包括html页面内容、Ajax请求、javascript变量、request信息等 一、Html页面内容抽取 jsoup语法介绍 Selector选择器概述 ...
jsoup:Java HTML 解析器 pegdown:Java Markdown 处理库 Apache Commons:Java 工具库集 Jodd:Java 工具库集 emoji-java:Java Emoji 处理库 User-Agent-Utils:Java User-Agent 解析库 Druid:Java 数据库...
程序中使用了Jsoup作为HTML解析器 要实际使用,首先需要给ProcessThread添加Processor,如果需要URL过滤,还需要添加URL Filter HTTP请求的客户端是apache httpclient TODO: 目前中文URL httpclient会报错,需要做...
fastjson(json数据解析),jsoup(解析地址信息时调用api用到),springbooot(javaweb框架),echarts(可视化库),vue(构建用户界面的框架) 使用软件/工具:idea,webstom,maven,visual studio code 2 思路...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...
GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...