http://www.cnblogs.com/rchen/archive/2006/05/05/392275.html
今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)
这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
代码如下:
#!/usr/bin/env python
# -*- coding: GBK -*-
import urllib
from sgmllib import SGMLParser
class URLLister(SGMLParser):
def reset(self):
SGMLParser.reset(self)
self.urls = []
def start_a(self, attrs):
href = [v for k, v in attrs if k == 'href']
if href:
self.urls.extend(href)
url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
sock = urllib.urlopen(url)
htmlSource = sock.read()
sock.close()
#print htmlSource
f = file('jingangjing.html', 'w')
f.write(htmlSource)
f.close()
mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
parser = URLLister()
parser.feed(htmlSource)
for url in parser.urls:
myurl = mypath + url
print "get: " + myurl
sock2 = urllib.urlopen(myurl)
html2 = sock2.read()
sock2.close()
# 保存到文件
print "save as: " + url
f2 = file(url, 'w')
f2.write(html2)
f2.close()
分享到:
相关推荐
Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...
python实现对于整个网页内容的爬取,简单易写,非常适合对python爬虫的学习。
介绍了如何使用python进行网络爬虫,以及如何防止ip在爬取过程中被屏蔽
基于Python的网页数据爬虫设计分析.pdf
一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试
该项目是一个爬虫程序,采用python语言,同时运用Orcle数据库及Flask框架共同搭建图片及视屏下载的前端网页,适合新手学习。
Python大作业--爬虫(完美应付大作业),Python大作业--爬虫(完美应付大作业)。 Python大作业:微信爬虫 程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存...
利用python做的一个简单爬虫程序,可获取python百度百科所有链接内容并以网页的内容显示
本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。</br> 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。</br> 配置文件采用ini的格式.</br> spider_config.ini蜘蛛的配置</...
python开发的简单爬虫,可以爬取百度百科若干个页面,可以自行修改。使用BeautifulSoup解析网页,MySQL数据库存储已访问过的URL,以使得程序不会重复爬取网页。
Python实现的通过关键字爬取百度相关页面的小程序,自己配置关键字即可,UTF-8编码的注意运行环境,dos下用chcp 65001
python开发的简单爬虫,可以爬取百度百科若干个页面,可以自行修改。使用BeautifulSoup解析网页,使用内存存储已访问过的URL,以使得程序不会重复爬取网页。
(1)实现时需要至少使用图形界面、多线程、文件操作、数据库编程、网页爬虫、统计 分析并绘图(或数据挖掘)六项技术,缺一不可。少一项则直接影响是否及格。 (2)系统要具有一定复杂度。应用系统的业务流程不能...
这个程序包括调度器,URL管理器,网页下载器,网页解析器,数据存取器。
这是一个简单的Python爬虫程序,旨在从豆瓣电影网站中提取电影信息。通过使用网络爬虫技术,该程序可以自动从豆瓣电影网页中抓取电影的名称、评分、演员、导演等信息,然后将这些数据存储或进一步处理,例如制作数据...
爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。 复制代码 代码如下: def getHtml(url): page = urllib.urlopen...
基于Java和Python的爬虫项目实战源码.zip 自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,...
基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告 源代码+csv文件+设计报告 python期末简单大作业(自己写的,重复率低) 利用python爬取了网站上的城市天气,并用利用可视化展示,有参考文献有...
根据分析结果,我们编写了一个Python爬虫程序。该程序使用了Requests库和BeautifulSoup库来获取网页源代码和解析HTML标签。具体的爬虫流程如下: 1. 使用Requests库发送HTTP请求,获取网页源代码。 2. 使用...
python写的网页下载程序,可改写为网页爬虫。