用 python 做简单的网页爬虫程序<转> - - ITeye博客

`

waveeee

浏览: 50461 次
来自: 上海

最近访客更多访客>>

ltj_007

zhonghanliang

Xiqincai

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bestlovetoad：
Pylons笔记（二）
waveeee：又转回xp了。用虚拟机安装服务器bsd。就是网络太球了！！！ ...
linux eclipse出错－failed to load the jni shared
qinq4312：最好不要完全禁用.可以用命令: chcon -t execme ...
linux eclipse出错－failed to load the jni shared
linvar：果然有此事,SELINUX主要是用来干嘛的,完全disable ...
linux eclipse出错－failed to load the jni shared

用 python 做简单的网页爬虫程序<转>

博客分类：

web-tech

阅读更多

http://www.cnblogs.com/rchen/archive/2006/05/05/392275.html

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）
这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。
代码如下：

#!/usr/bin/env python
# -*- coding: GBK -*-

import urllib

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):
        SGMLParser.reset(self)
        self.urls = []

    def start_a(self, attrs):
        href = [v for k, v in attrs if k == 'href']
        if href:
            self.urls.extend(href)

url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'
sock = urllib.urlopen(url)
htmlSource = sock.read()
sock.close()
#print htmlSource
f = file('jingangjing.html', 'w')
f.write(htmlSource)
f.close()

mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/'

parser = URLLister()
parser.feed(htmlSource)

for url in parser.urls:
    myurl = mypath + url
    print "get: " + myurl
    sock2 = urllib.urlopen(myurl)
    html2 = sock2.read()
    sock2.close()

    # 保存到文件
    print "save as: " + url
    f2 = file(url, 'w')
    f2.write(html2)
    f2.close()

分享到：

爬虫 source <转> | 网页爬虫程序开发经验谈 <转>

2010-08-05 10:44
浏览 1350
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python网页爬虫程序框架: Python网页爬虫程序框架常用的Python网页爬虫程序框架包括： Scrapy：Scrapy是一个强大的开源网络爬虫框架，提供了完整的爬虫流程管理，包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器...

python网络爬虫爬取整个网页: python实现对于整个网页内容的爬取，简单易写，非常适合对python爬虫的学习。

python网络爬虫程序: 介绍了如何使用python进行网络爬虫，以及如何防止ip在爬取过程中被屏蔽

基于Python的网页数据爬虫设计分析.pdf: 基于Python的网页数据爬虫设计分析.pdf

python简单爬虫抓取网页内容实例: 一个简单的python示例，实现抓取嗅事百科首页内容，大家可以自行运行测试

python+Oracle+Flask+前端网页=爬虫程序: 该项目是一个爬虫程序，采用python语言，同时运用Orcle数据库及Flask框架共同搭建图片及视屏下载的前端网页，适合新手学习。

Python大作业--爬虫（完美应付大作业）.zip: Python大作业--爬虫（完美应付大作业），Python大作业--爬虫（完美应付大作业）。 Python大作业：微信爬虫程序功能：爬取指定公众号的微信文章标题、作者、链接、图标文件，暂不支持保存成pdf（时间有限，保存...

利用python做的一个简单爬虫程序，可获取python百度百科所有链接内容并以网页的内容显示: 利用python做的一个简单爬虫程序，可获取python百度百科所有链接内容并以网页的内容显示

一个可以定制的爬虫: 本程序是用python编写，无需安装。运行Crawler.exe就可以看到效果。</br> 如果不修改配置是抓取新浪科技的内容，修改配置可以抓取指定的网站。</br> 配置文件采用ini的格式.</br> spider_config.ini蜘蛛的配置</...

Python爬虫: python开发的简单爬虫，可以爬取百度百科若干个页面，可以自行修改。使用BeautifulSoup解析网页，MySQL数据库存储已访问过的URL，以使得程序不会重复爬取网页。

Python实现的网页爬虫: Python实现的通过关键字爬取百度相关页面的小程序，自己配置关键字即可，UTF-8编码的注意运行环境,dos下用chcp 65001

python简单网络爬虫: python开发的简单爬虫，可以爬取百度百科若干个页面，可以自行修改。使用BeautifulSoup解析网页，使用内存存储已访问过的URL，以使得程序不会重复爬取网页。

python爬虫大作业报告+代码: （1）实现时需要至少使用图形界面、多线程、文件操作、数据库编程、网页爬虫、统计分析并绘图（或数据挖掘）六项技术，缺一不可。少一项则直接影响是否及格。（2）系统要具有一定复杂度。应用系统的业务流程不能...

Python2爬虫程序工具: 这个程序包括调度器，URL管理器，网页下载器，网页解析器，数据存取器。

豆瓣电影python爬虫程序: 这是一个简单的Python爬虫程序，旨在从豆瓣电影网站中提取电影信息。通过使用网络爬虫技术，该程序可以自动从豆瓣电影网页中抓取电影的名称、评分、演员、导演等信息，然后将这些数据存储或进一步处理，例如制作数据...

Python天气预报采集器实现代码(网页爬虫): 爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下: def getHtml(url): page = urllib.urlopen...

基于Java和Python的爬虫项目实战源码.zip: 基于Java和Python的爬虫项目实战源码.zip 自己动手写网络爬虫》，并基于Python3和Java实现为什么采用宽度优先搜索策略？深度优先遍历可能会在深度上过“深”而陷入“黑洞”；重要的网页往往距离种子网页比较近，...

基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告: 基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告源代码+csv文件+设计报告 python期末简单大作业（自己写的，重复率低）利用python爬取了网站上的城市天气，并用利用可视化展示，有参考文献有...

Python爬虫作业报告：怎么利用Python写益智类游戏.docx: 根据分析结果，我们编写了一个Python爬虫程序。该程序使用了Requests库和BeautifulSoup库来获取网页源代码和解析HTML标签。具体的爬虫流程如下： 1. 使用Requests库发送HTTP请求，获取网页源代码。 2. 使用...

python写的网页下载爬虫基础: python写的网页下载程序，可改写为网页爬虫。

Global site tag (gtag.js) - Google Analytics