`
waveeee
  • 浏览: 50461 次
  • 来自: 上海
社区版块
存档分类
最新评论

用 python 做简单的网页爬虫程序<转>

阅读更多
http://www.cnblogs.com/rchen/archive/2006/05/05/392275.html

今天看到一个网页,又因为在家里用电话线上网,一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读,省点电话费:)
这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
代码如下:

#!/usr/bin/env python
# -*- coding: GBK -*-

import urllib

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):
        SGMLParser.reset(self)
        self.urls = []
       
    def start_a(self, attrs):
        href = [v for k, v in attrs if k == 'href']
        if href:
            self.urls.extend(href)
   
url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
sock = urllib.urlopen(url)
htmlSource = sock.read()
sock.close()
#print htmlSource
f = file('jingangjing.html', 'w')
f.write(htmlSource)
f.close()

mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

parser = URLLister()
parser.feed(htmlSource)

for url in parser.urls:
    myurl = mypath + url
    print "get: " + myurl
    sock2 = urllib.urlopen(myurl)
    html2 = sock2.read()
    sock2.close()
   
    # 保存到文件
    print "save as: " + url
    f2 = file(url, 'w')
    f2.write(html2)
    f2.close()
   
分享到:
评论

相关推荐

    Python网页爬虫程序框架

    Python网页爬虫程序框架 常用的Python网页爬虫程序框架包括: Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...

    python网络爬虫爬取整个网页

    python实现对于整个网页内容的爬取,简单易写,非常适合对python爬虫的学习。

    python网络爬虫程序

    介绍了如何使用python进行网络爬虫,以及如何防止ip在爬取过程中被屏蔽

    基于Python的网页数据爬虫设计分析.pdf

    基于Python的网页数据爬虫设计分析.pdf

    python简单爬虫抓取网页内容实例

    一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试

    python+Oracle+Flask+前端网页=爬虫程序

    该项目是一个爬虫程序,采用python语言,同时运用Orcle数据库及Flask框架共同搭建图片及视屏下载的前端网页,适合新手学习。

    Python大作业--爬虫(完美应付大作业).zip

    Python大作业--爬虫(完美应付大作业),Python大作业--爬虫(完美应付大作业)。 Python大作业:微信爬虫 程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存...

    利用python做的一个简单爬虫程序,可获取python百度百科所有链接内容并以网页的内容显示

    利用python做的一个简单爬虫程序,可获取python百度百科所有链接内容并以网页的内容显示

    一个可以定制的爬虫

    本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。&lt;/br&gt; 如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。&lt;/br&gt; 配置文件采用ini的格式.&lt;/br&gt; spider_config.ini蜘蛛的配置&lt;/...

    Python爬虫

    python开发的简单爬虫,可以爬取百度百科若干个页面,可以自行修改。使用BeautifulSoup解析网页,MySQL数据库存储已访问过的URL,以使得程序不会重复爬取网页。

    Python实现的网页爬虫

    Python实现的通过关键字爬取百度相关页面的小程序,自己配置关键字即可,UTF-8编码的注意运行环境,dos下用chcp 65001

    python简单网络爬虫

    python开发的简单爬虫,可以爬取百度百科若干个页面,可以自行修改。使用BeautifulSoup解析网页,使用内存存储已访问过的URL,以使得程序不会重复爬取网页。

    python爬虫大作业报告+代码

    (1)实现时需要至少使用图形界面、多线程、文件操作、数据库编程、网页爬虫、统计 分析并绘图(或数据挖掘)六项技术,缺一不可。少一项则直接影响是否及格。 (2)系统要具有一定复杂度。应用系统的业务流程不能...

    Python2爬虫程序工具

    这个程序包括调度器,URL管理器,网页下载器,网页解析器,数据存取器。

    豆瓣电影python爬虫程序

    这是一个简单的Python爬虫程序,旨在从豆瓣电影网站中提取电影信息。通过使用网络爬虫技术,该程序可以自动从豆瓣电影网页中抓取电影的名称、评分、演员、导演等信息,然后将这些数据存储或进一步处理,例如制作数据...

    Python天气预报采集器实现代码(网页爬虫)

    爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。 复制代码 代码如下: def getHtml(url): page = urllib.urlopen...

    基于Java和Python的爬虫项目实战源码.zip

    基于Java和Python的爬虫项目实战源码.zip 自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,...

    基于python的网络爬虫爬取天气数据及可视化分析python大作业,课程设计报告

    基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告 源代码+csv文件+设计报告 python期末简单大作业(自己写的,重复率低) 利用python爬取了网站上的城市天气,并用利用可视化展示,有参考文献有...

    Python爬虫作业报告:怎么利用Python写益智类游戏.docx

    根据分析结果,我们编写了一个Python爬虫程序。该程序使用了Requests库和BeautifulSoup库来获取网页源代码和解析HTML标签。具体的爬虫流程如下: 1. 使用Requests库发送HTTP请求,获取网页源代码。 2. 使用...

    python写的网页下载爬虫基础

    python写的网页下载程序,可改写为网页爬虫。

Global site tag (gtag.js) - Google Analytics