从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了
原理很easy:
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
/**
* description: 只保留br、p标签<br>
*
* @return 2010-4-2
* @author huxiao kskr@qq.com
*/
public static String clear(String htmlStr) {
return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
}
分享到:
相关推荐
支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 提取...
给大家带来一款功能强大的批量文本提取器,该软件非常不错,当前支持支持正则表达式,批量提取文本,可以将HTML等文件中指定内容存入数据库、HTML、文本文件,存入数据库的意思是将提取的文本内容直接导入进数据库中...
今天小编就为大家分享一篇Java实现从Html文本中提取纯文本的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取的文本内容生成TXT文本文件、HTM网页文件、MDB数据库文件。 提供多种查找、获取信息的方式: 提取文件中全部email邮件地址 ...
从Word中提取文本.doc
imgclip, 从图像中提取文本到系统剪贴板中的命令行 工具 imgclip 从图像中提取文本到系统剪贴板中的命令行 工具。 使用 tesseract.js OCR包装器 安装npm install -g imgclip注释仅与 node v6.8.0 兼容
支持从其它网站直接提取文本内容,生成所需数据库文件。支持GB2312/UTF-8等多种编码,可将提取信息生成文本文件、HTM网页文件、MDB数据库文件,可设置提取文件的间隔,以避免下载网页过快,服务器不响应,欢迎有需求...
CSDN文章名:文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程) https://blog.csdn.net/sinat_39620217/article/details/130864790 目标:输入一篇...
tika 工程 简便获取文本的java工具
在网上查找了许久找到的可用的代码,MFC界面编程,实现在原文件夹中提取与关键词相关的文本,并存储于另一文件夹。
基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元组源码.rar基于python开发的提取文本中的三元...
Delphi提取PDF文本.txt
使用VS软件 C/C++读取当前文件夹下文本文档内指定行并输出到新的文本文档中,其中代码是提取文本文档中特定行到最后的数据,也有提取的行是有规律的行。其中代码是以提取多个txt第14行到最后的数据并整合到一个txt中...
提取文本文件中的电子邮件地址
支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取信息生成文本文件、HTM网页文件、MDB数据库文件。 可设置提取文件的间隔,避免下载网页过快,服务器不响应 提供多种查找、...
详细介绍文本数据的四种表示模型,以及常见的6种文本数据的特征选择方法。
英文:Text the random extraction tool is a random ...一个txt文本,电脑随机从文本中随机提取数据,大家明白了?? 如果抽奖不严格的话,您可以用这个当一下抽奖软件来用的。。。 解压密码:http://www.24gla.com/
html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则获取图片 富文本提取图片路径 字符中中获取图片路径 html中获取图片 文章中提取图片 正则...
python提取文本数据,经验不足,欢迎指正
Text Mining (1) 文本本来是给人读的,不是计算机 大多数信息以文本形式存储 ...HTML网页是带有结构标记的文本(带来机会和挑战) 数据挖掘操作的是数据表 (i.e. numbers, fixed fields, adherence to data models).