sgmllib Introduction -

vergilwang

浏览: 125075 次
性别:
来自: 北京

最近访客更多访客>>

iris19860111

u_lama

KEYS123456789

2644781824

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

sgmllib Introduction

博客分类：

Python
Crawler
HTML

8.2.`sgmllib.py`介绍

HTML处理分成三步：将HTML分解成它的组成片段，对片段进行加工，接着将片段再重新合成 HTML。第一步是通过sgmllib.py来完成的，它是标准Python库的一部分。

理解本章的关键是要知道HTML不只是文本，更是结构化文本。这种结构来源于开始与结束标记的或多或少分级序列。通常您并不以这种方式处理HTML，而是以文本方式在一个文本编辑中对其进行处理，或以可视的方式在一个浏览器中进行浏览或页面编辑工具中进行编辑。sgmllib.py表现出了HTML的结构。

sgmllib.py包含一个重要的类：SGMLParser。SGMLParser将HTML分解成有用的片段，比如开始标记和结束标记。在它成功地分解出某个数据为一个有用的片段后，它会根据所发现的数据，调用一个自身内部的方法。为了使用这个分析器，您需要子类化SGMLParser类，并且覆盖这些方法。这就是当我说它表示了HTML结构的意思：HTML的结构决定了方法调用的次序和传给每个方法的参数。

SGMLParser将HTML分析成 8 类数据，然后对每一类调用单独的方法：

开始标记 (Start tag)

是开始一个块的HTML标记，像<html>、<head>、<body>或<pre>等，或是一个独一的标记，像<br>或<img>等。当它找到一个开始标记tagname，SGMLParser将查找名为start_tagname或do_tagname的方法。例如，当它找到一个<pre>标记，它将查找一个start_pre或do_pre的方法。如果找到了，SGMLParser会使用这个标记的属性列表来调用这个方法；否则，它用这个标记的名字和属性列表来调用unknown_starttag方法。

结束标记 (End tag)

是结束一个块的HTML标记，像</html>、</head>、</body>或</pre>等。当找到一个结束标记时，SGMLParser将查找名为end_tagname的方法。如果找到，SGMLParser调用这个方法，否则它使用标记的名字来调用unknown_endtag。

字符引用 (Character reference)

用字符的十进制或等同的十六进制来表示的转义字符，像 。当找到，SGMLParser使用十进制或等同的十六进制字符文本来调用handle_charref。

实体引用 (Entity reference)

HTML实体，像©。当找到，SGMLParser使用HTML实体的名字来调用handle_entityref。

注释 (Comment)

HTML注释，包括在之间。当找到，SGMLParser用注释内容来调用handle_comment。

处理指令 (Processing instruction)

HTML处理指令，包括在<? ... >之间。当找到，SGMLParser用处理指令内容来调用handle_pi。

声明 (Declaration)

HTML声明，如DOCTYPE，包括在<! ... >之间。当找到，SGMLParser用声明内容来调用handle_decl。

文本数据 (Text data)

文本块。不满足其它 7 种类别的任何东西。当找到，SGMLParser用文本来调用handle_data。

Python2.0 存在一个 bug，即SGMLParser完全不能识别声明 (handle_decl永远不会调用)，这就意味着DOCTYPE被静静地忽略掉了。这个错误在Python2.1 中改正了。

sgmllib.py所附带的一个测试套件举例说明了这一点。您可以运行sgmllib.py，在命令行下传入一个HTML文件的名字，然后它会在分析标记和其它元素的同时将它们打印出来。它的实现是通过子类化SGMLParser类，然后定义unknown_starttag，unknown_endtag，handle_data和其它方法来实现的。这些方法简单地打印出它们的参数。

在 Windows 下的ActivePythonIDE中，您可以在 “Run script” 对话框中指定命令行参数。用空格将多个参数分开。

例8.4.`sgmllib.py`的样例测试

下面是一个片段，来自本书的HTML版本的目录，toc.html。当然，您的存储路径可能与我的有所不同。 (如果您还没有下载本书的HTML版本，可以从http://diveintopython.org/下载。

c:\python23\lib> type "c:\downloads\diveintopython\html\toc\index.html"

<!DOCTYPE html
  PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en">
   <head>
      <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
   
      <title>Dive Into Python</title>
      <link rel="stylesheet" href="diveintopython.css" type="text/css">

... 略 ...

通过sgmllib.py的测试套件来运行它，会得到如下的输出结果:

c:\python23\lib> python sgmllib.py "c:\downloads\diveintopython\html\toc\index.html"
data: '\n\n'
start tag: <html lang="en" >
data: '\n   '
start tag: <head>
data: '\n      '
start tag: <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" >
data: '\n   \n      '
start tag: <title>
data: 'Dive Into Python'
end tag: </title>
data: '\n      '
start tag: <link rel="stylesheet" href="diveintopython.css" type="text/css" >
data: '\n      '

... 略 ...

下面是本章其它部分的路标：

子类化SGMLParser来创建从HTML文档中抽取感兴趣的数据的类。
子类化SGMLParser来创建BaseHTMLProcessor，它覆盖了所有8个处理方法，然后使用它们从片段中重建原始的HTML。
子类化BaseHTMLProcessor来创建Dialectizer，它增加了一些方法，专门用来处理指定的HTML标记，然后覆盖了handle_data方法，提供了用来处理HTML标记之间文本块的框架。
子类化Dialectizer来创建定义了文本处理规则的类。这些规则被Dialectizer.handle_data使用。
编写一个测试套件，它可以从http://diveintopython.org/处抓取一个真正的 web 页面，然后处理它。

继续阅读本章，您还可以学习到有关locals、globals和基于 dictionary 的字符串格式化的内容。

分享到：

HTML and URL Parser | VIM 操作

2012-08-10 16:47
浏览 260
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

sgmllib Introduction

8.2.`sgmllib.py`介绍

例8.4.`sgmllib.py`的样例测试

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

sgmllib Introduction

8.2.sgmllib.py介绍

例8.4.sgmllib.py的样例测试

评论

发表评论

相关推荐

python编码问题总结

python补全插件

python类型转换

python正则

python匹配中文

python读写

python路径文件api

pythonGB2312乱码问题

python文件读写2

python debug【】

python crawler(1)

python crawler(2)

python spider code

python 爬虫抓站

scapy递归爬

scapy安装and简介

pydev eclipse插件安装

python list

List Tuple Dictionary 区别

抓取网页并解析HTML

最近访客更多访客>>

8.2.`sgmllib.py`介绍

例8.4.`sgmllib.py`的样例测试