`
ybhuxiao
  • 浏览: 189826 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

从html里面提取文本,只保留br和p

    博客分类:
  • java
阅读更多
从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了

原理很easy:
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用

	/**
	 * description: 只保留br、p标签<br>
	 * 
	 * @return 2010-4-2
	 * @author huxiao kskr@qq.com
	 */
	public static String clear(String htmlStr) {
		return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
	}



0
0
分享到:
评论

相关推荐

    网页文本提取器

    支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 提取...

    风越批量文本提取器 _可将HTML等文件中指定内容存入数据库、HTML、文本文件.zip

    给大家带来一款功能强大的批量文本提取器,该软件非常不错,当前支持支持正则表达式,批量提取文本,可以将HTML等文件中指定内容存入数据库、HTML、文本文件,存入数据库的意思是将提取的文本内容直接导入进数据库中...

    Java实现从Html文本中提取纯文本的方法

    今天小编就为大家分享一篇Java实现从Html文本中提取纯文本的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

    风越批量提取文本工具

    支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取的文本内容生成TXT文本文件、HTM网页文件、MDB数据库文件。 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 ...

    从Word中提取文本.doc

    从Word中提取文本.doc

    imgclip, 从图像中提取文本到系统剪贴板中的命令行 工具.zip

    imgclip, 从图像中提取文本到系统剪贴板中的命令行 工具 imgclip 从图像中提取文本到系统剪贴板中的命令行 工具。 使用 tesseract.js OCR包装器 安装npm install -g imgclip注释仅与 node v6.8.0 兼容

    风越批量文本提取器v3.84绿色免费版

    支持从其它网站直接提取文本内容,生成所需数据库文件。支持GB2312/UTF-8等多种编码,可将提取信息生成文本文件、HTM网页文件、MDB数据库文件,可设置提取文件的间隔,以避免下载网页过快,服务器不响应,欢迎有需求...

    基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源

    CSDN文章名:文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程) https://blog.csdn.net/sinat_39620217/article/details/130864790 目标:输入一篇...

    tika提取文本内容

    tika 工程 简便获取文本的java工具

    根据关键词提取文本

    在网上查找了许久找到的可用的代码,MFC界面编程,实现在原文件夹中提取与关键词相关的文本,并存储于另一文件夹。

    基于python开发的提取文本中的三元组源码.rar

    基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元...

    Delphi提取PDF文本.txt

    Delphi提取PDF文本.txt

    C/C++读取文本文档提取特定行输出到文本文档

    使用VS软件 C/C++读取当前文件夹下文本文档内指定行并输出到新的文本文档中,其中代码是提取文本文档中特定行到最后的数据,也有提取的行是有规律的行。其中代码是以提取多个txt第14行到最后的数据并整合到一个txt中...

    提取文本文件中的电子邮件地址

    提取文本文件中的电子邮件地址

    风越批量文本提取、网页采集器

    支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 可设置提取文件的间隔,避免下载网页过快,服务器不响应 提供多种查找、...

    文本特征提取常见方法

    详细介绍文本数据的四种表示模型,以及常见的6种文本数据的特征选择方法。

    文本随机提取工具

    英文:Text the random extraction tool is a random ...一个txt文本,电脑随机从文本中随机提取数据,大家明白了?? 如果抽奖不严格的话,您可以用这个当一下抽奖软件来用的。。。 解压密码:http://www.24gla.com/

    从富文本(HTML字符串)中获取图片

    html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则...

    python提取文本数据.py

    python提取文本数据,经验不足,欢迎指正

    文本挖掘 – 信息提取 ppt

    Text Mining (1) 文本本来是给人读的,不是计算机 大多数信息以文本形式存储 ...HTML网页是带有结构标记的文本(带来机会和挑战) 数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).

Global site tag (gtag.js) - Google Analytics