python 解析html - - ITeye博客

`

have_life

浏览: 146876 次

最近访客更多访客>>

siyu3223

dong_junshuai

thornbird313

xiaomabobo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Rannn：我只是偶尔路过的。二叉树的深度为lg(n) 叶子为2^(L-1 ...
完全二叉树叶子节点个数计算问题
have_life：按住Ctrl+Shift 然后按 -> 这样的光标键， ...
eclipse快捷键
have_life：启动chrome隐身模式 Ctrl + Shift + N ...
快速恢复刚刚关闭的Chrome标签页的方法
have_life： Shift + Alt + A 光标会变成一个十字 ...
eclipse快捷键
have_life： Ctrl + Shift + X 把所有选中字母变大写Ctrl ...
eclipse快捷键

python 解析html

博客分类：

python

python 解析html

阅读更多

from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
 
    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag
        if tag == "a":
            if len(attrs) == 0: pass
            else:
                for (variable, value)  in attrs:
                    if variable == "href":
                        self.links.append(value)
 
if __name__ == "__main__":
    html_code = """
    <a href="www.google.com"> google.com</a>
    <A Href="www.pythonclub.org"> PythonClub </a>
    <A HREF = "www.sina.com.cn"> Sina </a>
    """
    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)

这里还有别人博客上的相关内容，感觉质量不错。记录一下
http://www.lovelucy.info/python-crawl-pages.html

我没有自己亲自验证下面这段代码是否正常运行。

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
	def __init__(self):
		SGMLParser.__init__(self)
		self.is_h4 = ""
		self.name = []
	def start_h4(self, attrs):
		self.is_h4 = 1
	def end_h4(self):
		self.is_h4 = ""
	def handle_data(self, text):
		if self.is_h4 == 1:
			self.name.append(text)
 
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
	print item.decode('gbk').encode('utf8')

分享到：

eclipse快捷键 | python抓取一个页面

2012-05-17 11:16
浏览 1326
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python解析html的几种方法: python解析html的几种方法，lxml，xpath，htmlparser，SGMLParser等操作

Python实现简单HTML表格解析的方法: 主要介绍了Python实现简单HTML表格解析的方法,涉及Python基于libxml2dom模块操作html页面元素的技巧,需要的朋友可以参考下

python解析html提取数据，并生成word文档实例解析: 主要介绍了python解析html提取数据，并生成word文档实例解析，小编觉得还是挺不错的，具有一定借鉴价值，需要的朋友可以参考下

python xml html 解析工具（代码）: python处理xml很实用好用的工具主要有BeautifulSoup和BeautifulStoneSoup，import就好，前者处理html，后者处理xml 具体使用方法可以上网查

lxml_Python下的高性能xml跟html解析: lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且实现了常见的 ElementTree API。

Python实现抓取网页生成Excel文件的方法示例: 本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考，具体如下： Python抓网页，主要用到了PyQuery，这个跟jQuery用法一样，超级给力示例代码如下： #-*- encoding:utf-8 -*- import sys...

python文本解析器: Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识，以及如何用 Python 将纯文本分成一个一个的文本块，并对它对解析。文本中使用部分简单的 Markdown 语法。

Python-RequestsHTMLHumans的HTML解析器: 该库旨在尽可能简单直观地解析HTML（例如，抓取网页）

python 最牛的解析html的方法: self.selected = ['html', 'body', 'table', 'head', 'meta', 'style', 'tr', 'td'] self.reset() self._level_stack = [] self.flag = True global style_list, br_list, tr_list, td_list, td_class_list ...

8.python beatifulsoup html文件解析1: BeautifulSoup Html解析基本使用解析器的使用解析器使用方法优势劣势Python标准库BeautifulSoup(markup, "html.pa

用Python解析XML的几种常见方法的介绍: 这篇文章主要介绍了用Python解析XML的几种常见方法,包括快速的使用ElementTree模块等方法的实例介绍,需要的朋友可以参考下一、简介 XML（eXtensible Markup Language）指可扩展标记语言，被设计用来传输和存储数据...

python 解析html之BeautifulSoup: 复制代码代码如下:# coding=utf-8 from BeautifulSoup import BeautifulSoup, Tag, NavigableString from SentenceSpliter import SentenceSpliter from os.path import basename,dirname,isdir,isfile from os ...

Python-jparser一个强大的python解析器可以从HTML页面中提取标题内容图像: jparser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

Python给html文件的a标签添加属性: Python给html文件的a标签添加属性用的Beautiful Soup 解析html文件

rtf文件解析和生产的python包: 包括两个资源，Rtf-0.2.1是python对rtf文件的解析包，包括rtf转html和txt，资源来源于sourceforge；pyrtf-master是python生成rtf的包，其中包括实例，资源来源github。

Python-pyquery一个解析HTML的库类似jQuery: pyquery：一个解析 HTML 的库，类似 jQuery

python爬站解析.docx: 其中，requests库可以帮助我们发送HTTP请求，beautifulsoup库可以帮助我们解析HTML文档，selenium库可以帮助我们模拟浏览器的行为。 python爬站解析全文共2页，当前为第1页。 Python爬站解析技术的应用非常广泛。...

Python-html5parser一个用于Python基于C的快速HTML5解析: html5-parser一个用于Python基于C的快速HTML5解析

Global site tag (gtag.js) - Google Analytics