bug:
利用HTMLParser解析 带有中文属性的标签,例如:"<img alt=周润发 src="/html"/>"
会出现如下错误:
raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: junk characters in start tag: u'\u5468\u6da6\u53d1 src="/html"/>', at line 1, column 1
错误原因还是正则表达式惹的祸。
attrfind = re.compile(
r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'
r'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@]*))?')
attrfind 没有匹配中文字符。
解决办法:
修改attrfind:
attrfind = re.compile(
ur'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'
ur'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@\u4e00-\u9fa5]*))?')
然后案例测试如下:
htmldata="""<img alt=周润发 src="/html"/>""".decode("utf8")
没有错误。
分享到:
相关推荐
资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...
htmlparser(HTML页面解析)例子
Html解析助手htmlparser.jar。Html解析助手htmlparser.jar
如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.
htmlparser解析API,希望对解析代码的伙伴们有帮助
htmlparser是一款小而强大的解析Html 的第三方工具包,内含jar包和源文件包(两个),htmlparser1.6.jar,htmlparser1.6_src.jar,非常有用的
HTML文档解析器 HTMLParser
HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析
htmlparser解析html,获得需要的字段
HtmlParser.Net是来源于Java的一个用来解析html的组件,主要用于改造或提取html。它能够高速解析html,是非常好的一个html解析和分析工具。 这个是.Net版本包括源代码和帮助文档。 版本:HTMLParser.Net - Community...
基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...
NULL 博文链接:https://sunfish.iteye.com/blog/1317467
用htmlparser解析html的所有jar包,非常全!
按DOM模型解析html文件的工具包 已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...
htmlparser[1]是一个纯的java写的html(标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或 提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。 毫不...
Htmlparser,Jar包,Java,页面解析
跨平台的Html解析代码_武稀松_HtmlParser.rar
android 解析html (htmlParser)库和源码 因为一个项目需要解析一个网站上的新闻,所以找到了htmlParser这个开源的项目,删除了一些不需要的包,使其可以在android上用。 有两个工程,myhtml是库,要把它包含到...
其中用到htmlparser,用StringBean时,访问一些网站,总输出?,原来它解析不了"©"等.encoding问题,我改过了,重新编译.现在一切正常了.偶也是新手,弄了半天,为了新的朋友不浪费时间,发布过来.分享......