论坛首页 入门技术论坛

谁能推荐一个好的htmlparser,除了lucene自带那个!

浏览 4864 次
该帖已经被评为新手帖
作者 正文
   发表时间:2006-10-14  
谁能推荐一个能够解析 html的解释器? 解析完html静态页面后,能够提供 getTitle,getSummary,等方法?  htmlparser2.0 不行,提供的方法太少,lucene2.0的有 bug,部分html中的特殊字符无法处理。
总是报错:
DEBUG org.apache.lucene.demo.html.HTMLParserToorg.apache.lucene.demo.html.ParseException: Encountered ">" at line 80, column 19.
Was expecting one of:
    <Quote2Text> ...
    <CloseQuote2> ...
    
	at org.apache.lucene.demo.html.HTMLParser.generateParseException(HTMLParser.java:691)
	at org.apache.lucene.demo.html.HTMLParser.jj_consume_token(HTMLParser.java:569)
	at org.apache.lucene.demo.html.HTMLParser.ArgValue(HTMLParser.java:329)
	at org.apache.lucene.demo.html.HTMLParser.Tag(HTMLParser.java:261)
	at org.apache.lucene.demo.html.HTMLParser.HTMLDocument(HTMLParser.java:189)
	at org.apache.lucene.demo.html.ParserThread.run(ParserThread.java:38)


多谢!  一定要有这个 getSummary() 方法!
   发表时间:2006-11-06  
getSummary()
是要得到什么?
0 请登录后投票
   发表时间:2007-01-21  
wmteo 写道
getSummary()
是要得到什么?



得到一篇文章的摘要,例如你用 google搜索出来的列表中那写简短的说明文字
0 请登录后投票
   发表时间:2007-05-27  
DEBUG org.apache.lucene.demo.html.HTMLParserToorg.apache.lucene.demo.html.ParseException: Encountered ">" at line 80, column 19.  我也有同样的问题哦不知道怎么解决
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics