htmlparser 解析html标签中文属性且未加标签 bug解决办法 - http://john2007.javaeye.com/ - ITeye博客

`

john2007

浏览: 76222 次
性别:
来自: 南京

最近访客更多访客>>

yanghongfeng8888

c.zhiwu

daizj

heavensay

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

john2007： mark lxml and beautifulsoup
基于python的crawler
ray_linn：有什么难的? ref的值在方法内部可能被使用,因此可能需要被 ...
Why does C# have both 'ref' and 'out'?
小龟爬爬： ref使用之前必须初始化，而 out 只需要定义，不用初始化， ...
Why does C# have both 'ref' and 'out'?
john2007： http://www.ebookee.com.cn/Compu ...
文本/Web挖掘推荐书目
john2007： Computational Intelligence in M ...
文本/Web挖掘推荐书目

htmlparser 解析html标签中文属性且未加标签 bug解决办法

HTML 正则表达式

阅读更多

bug:

利用HTMLParser解析带有中文属性的标签，例如："<img alt=周润发 src="/html"/>"

会出现如下错误：

raise HTMLParseError(message, self.getpos())

HTMLParser.HTMLParseError: junk characters in start tag: u'\u5468\u6da6\u53d1 src="/html"/>', at line 1, column 1

错误原因还是正则表达式惹的祸。

attrfind = re.compile(

r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'

r'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@]*))?')

attrfind 没有匹配中文字符。

解决办法：

修改attrfind:

attrfind = re.compile(

ur'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*'

ur'(\'[^\']*\'|"[^"]*"|[-a-zA-Z0-9./,:;+*%?!&$\(\)_#=~@\u4e00-\u9fa5]*))?')

然后案例测试如下：

htmldata="""<img alt=周润发 src="/html"/>""".decode("utf8")

没有错误。

分享到：

有关字符编码的问题收集 | htmlparser vs sgmlparser 解析html的单个 ...

2009-12-30 16:25
浏览 3152
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

扩展HTMLParser对自定义标签的处理能力: 资源名称：扩展HTMLParser对自定义标签的处理能力内容简介： HTMLParser是一个用来解析HTML文档的开放源码项目，它具有小巧、快速、使用简单的特点以及拥有强大的功能。现在该项目的最新版本是Integration Build ...

htmlparser(HTML页面解析)例子: htmlparser(HTML页面解析)例子

Html解析助手htmlparser.jar: Html解析助手htmlparser.jar。Html解析助手htmlparser.jar

Java正则表达式详解+基于HTMLParser解析HTML网页: 如何在Java程序中利用正则表达式实现对字符串的解析.另外,HTMLParser是一款很强大的对HTML网页进行解析的工具,其中大量地用到正则表达式.

htmlparser解析API: htmlparser解析API，希望对解析代码的伙伴们有帮助

htmlparser解析Html的jar包和源文件包（两个）: htmlparser是一款小而强大的解析Html 的第三方工具包，内含jar包和源文件包（两个）,htmlparser1.6.jar,htmlparser1.6_src.jar，非常有用的

HTML文档解析器 HTMLParser: HTML文档解析器 HTMLParser

HTMLParser 2.0: HTMLParser HTML解析 HTMLParser HTML解析 HTMLParser HTML解析

htmlparser解析: htmlparser解析html，获得需要的字段

Winista.Htmlparser.Net 解析Html 的.net类库: HtmlParser.Net是来源于Java的一个用来解析html的组件，主要用于改造或提取html。它能够高速解析html，是非常好的一个html解析和分析工具。这个是.Net版本包括源代码和帮助文档。版本：HTMLParser.Net - Community...

基于java的开发源码-HTML文档解析器 HTMLParser.zip: 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于java的开发源码-HTML文档解析器 HTMLParser.zip 基于...

htmlparser解析html分页: NULL 博文链接：https://sunfish.iteye.com/blog/1317467

解析htmlparser的所有jar包: 用htmlparser解析html的所有jar包，非常全！

htmlparser: 按DOM模型解析html文件的工具包已下是源码列表: META-INF/MANIFEST.MF META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class ...

HtmlParser: htmlparser[1]是一个纯的java写的html（标准通用标记语言下的一个应用）解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不...

htmlparser_Java网页解析器: Htmlparser，Jar包，Java，页面解析

跨平台的Html解析代码_武稀松_HtmlParser.rar: 跨平台的Html解析代码_武稀松_HtmlParser.rar

android 解析html （htmlParser）库和源码: android 解析html （htmlParser）库和源码因为一个项目需要解析一个网站上的新闻，所以找到了htmlParser这个开源的项目，删除了一些不需要的包，使其可以在android上用。有两个工程，myhtml是库，要把它包含到...

解析中文的htmlparser: 其中用到htmlparser,用StringBean时,访问一些网站,总输出?,原来它解析不了"&copy"等.encoding问题,我改过了,重新编译.现在一切正常了.偶也是新手,弄了半天,为了新的朋友不浪费时间,发布过来.分享......

Global site tag (gtag.js) - Google Analytics