from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.links = []
def handle_starttag(self, tag, attrs):
#print "Encountered the beginning of a %s tag" % tag
if tag == "a":
if len(attrs) == 0: pass
else:
for (variable, value) in attrs:
if variable == "href":
self.links.append(value)
if __name__ == "__main__":
html_code = """
<a href="www.google.com"> google.com</a>
<A Href="www.pythonclub.org"> PythonClub </a>
<A HREF = "www.sina.com.cn"> Sina </a>
"""
hp = MyHTMLParser()
hp.feed(html_code)
hp.close()
print(hp.links)
这里还有别人博客上的相关内容,感觉质量不错。记录一下
http://www.lovelucy.info/python-crawl-pages.html
我没有自己亲自验证下面这段代码是否正常运行。
import urllib2
from sgmllib import SGMLParser
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')
分享到:
相关推荐
python解析html的几种方法,lxml,xpath,htmlparser,SGMLParser等操作
主要介绍了Python实现简单HTML表格解析的方法,涉及Python基于libxml2dom模块操作html页面元素的技巧,需要的朋友可以参考下
主要介绍了python解析html提取数据,并生成word文档实例解析,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
python处理xml很实用好用的工具 主要有BeautifulSoup和BeautifulStoneSoup,import就好,前者处理html,后者处理xml 具体使用方法可以上网查
lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。
本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下: Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys...
Python 来解析纯文本生成 HTML 页面的小程序。使用Python基础语法知识以及HTML标记语言知识,以及如何用 Python 将纯文本分成一个一个的文本块,并对它对解析。文本中使用部分简单的 Markdown 语法。
该库旨在尽可能简单直观地解析HTML(例如,抓取网页)
self.selected = ['html', 'body', 'table', 'head', 'meta', 'style', 'tr', 'td'] self.reset() self._level_stack = [] self.flag = True global style_list, br_list, tr_list, td_list, td_class_list ...
BeautifulSoup Html解析基本使用解析器的使用解析器使用方法优势劣势Python标准库BeautifulSoup(markup, "html.pa
这篇文章主要介绍了用Python解析XML的几种常见方法,包括快速的使用ElementTree模块等方法的实例介绍,需要的朋友可以参考下 一、简介 XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据...
复制代码 代码如下:# coding=utf-8 from BeautifulSoup import BeautifulSoup, Tag, NavigableString from SentenceSpliter import SentenceSpliter from os.path import basename,dirname,isdir,isfile from os ...
jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。
Python给html文件的a标签添加属性 用的Beautiful Soup 解析html文件
包括两个资源,Rtf-0.2.1是python对rtf文件的解析包,包括rtf转html和txt,资源来源于sourceforge;pyrtf-master是python生成rtf的包,其中包括实例,资源来源github。
pyquery:一个解析 HTML 的库,类似 jQuery
其中,requests库可以帮助我们发送HTTP请求,beautifulsoup库可以帮助我们解析HTML文档,selenium库可以帮助我们模拟浏览器的行为。 python爬站解析全文共2页,当前为第1页。 Python爬站解析技术的应用非常广泛。...
html5-parser一个用于Python基于C的快速HTML5解析