Java程序中Jsoup解析大量html内存溢出,资源没有回收,内存一直增长
最近要改别人写的一个解析html入库的程序,原本没有抽取正文的代码,就自己找了一个放了进去,是根据Jsoup解析写的,运行之后发现Jsoup解析大量html内存溢出,资源没有回收,内存一直增长。设1G的内存也就解析了几十万的页面就崩了。查了半天之后也没找到定位到,具体是哪个参数的内存一直增加也没有查出来,不知道怎么监视。现在是整个程序内存越跑越大,有几百万的页面,跑到几十万程序就崩了,内存1-2G,下面我会把程序和数据库上传一下。库表就3个(mysql).求懂的前辈给看看是哪里写的不对,有什么优化的方案。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
这里是解析正文调用的,ArticleTextExtractor.extractContent里调用了Jsoup.parse(String)来解析。
String content = "";
Converter c = new Converter();
ArticleTextExtractor extractors = new ArticleTextExtractor();
JResult res = extractors.extractContent(c.streamToString( new FileInputStream(file)));
content = res.getText();
相关推荐
Jsoup HTML解析器For Java 在Java程序中使用JQuery操作DOM 模式识别的新技术 狂顶
使用Jsoup解析html网页,包含jsoup.jar \ api.chm \ 代码
jsoup解析html网页的api
jsoup Java HTML解析器 jsoup Java HTML解析器 jsoup Java HTML解析器 jsoup Java HTML解析器 jsoup Java HTML解析器
Jsoup库文件;Jsoup解析Java包
jsoup在java代码中高效解析html字符串为dom结构,并可实现对dom结构的灵活操作,特别适合移动端返回字段为html形式的解析过滤处理
Jsoup解析html+xml
Java解析html的实用工具jsoup和它一个简单的例子,方便使用jsoup进行html的解析
用Jsoup解析html的所有jar包!
java语言,jsoup解析html修改文件名的一个demo
jsoup解析HTML,获取htmlUrl
用java+jsoup解析api本地帮助文档的一些实例,实测java1.6 html格式的API可用(对于一个学习java已有N年,但却一直停留在“曾经学过”的阶段人来说,java确实有其难处,类库相对较多。我最初设计目的是想要解析帮助...
java解析xml,dom解析,jsoup解析,两种不同方式的解析,完整项目
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 可以从包括字符串、URL 地址...
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
使用httpClient采集数据,jsoup解析页面
利用jsoup工具解析html的demo
java解析html.采集网站专用。有用的可以下载
基于java的开发源码-HTML解析器 jsoup.zip 基于java的开发源码-HTML解析器 jsoup.zip 基于java的开发源码-HTML解析器 jsoup.zip 基于java的开发源码-HTML解析器 jsoup.zip 基于java的开发源码-HTML解析器 jsoup.zip ...
一个简单地android解析html的例子