Python网络爬虫实例 - Move Fast! - ITeye博客

`

zhb8015

浏览: 378663 次
性别:
来自: 北京

最近访客更多访客>>

cqwb123

u012363178

cgs1999

xuelvming

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: Spring Roo杂谈
浏览量：0

文章分类

社区版块

存档分类

最新评论

liutingna86：程序没有提取新的链接，只是分析url.txt中链接页面的内容是 ...
Java编程技巧：小爬虫程序(转)
u013680195： CSS基础教程17篇此教程共17篇，由浅到深、循序渐进的讲述 ...
每个Web开发者必备的9个软技能(转)
zhb8015：有一个解决的方法：把DTD文件从mybatis.jar中拿出来 ...
求助： exception is java.net.UnknownHostException: mybatis.org
zhb8015：问题可能找到了，spring-test对于（@ContextC ...
求助：NoSuchBeanDefinitionException: No bean named 'userService' is defined

Python网络爬虫实例

博客分类：

Python

阅读更多

视频地址：

http://edu.51cto.com/lesson/id-12393.html

下载博客文章实例

源码：

import urllib
import time

#下载博客所有文章
i = 0
url = ['']*50
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_3973495073_0_1.html').read()
title = con.find(r'<a title=')
href = con.find(r'href=', title)
html = con.find(r'.html', href)

while title != -1 and href != -1 and html != -1 and i < 50:
    url[i] = con[href + 6:html + 5]
    print url[i]
    title = con.find(r'<a title=', html)
    href = con.find(r'href=', title)
    html = con.find(r'.html', href)
    i = i + 1
else:
    print 'find end!'

j = 0
while j < 50:
    content = urllib.urlopen(url[j]).read()
    open(r'hanhan/'+url[j][-26:],'w+').write(content)
    print 'downloading', url[j]
    j = j + 1
    time.sleep(1)
else:
    print 'download articles finished!'

分享到：

xmemcached作者Dennis采访(转) | 微信公众平台开发入门

2014-07-13 23:16
浏览 1172
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf: 《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10...

python爬虫实例教程: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。

Python 网络爬虫实例-Spiders.zip: Python 网络爬虫实例-Spiders

python爬虫20个案例: 讲诉python爬虫的20个案例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

Python网络爬虫实战.pdf: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

Python网络爬虫实例教程: 网络爬虫概述、 requests库入门、xapth语法详解、认识和应对反爬虫、模拟登录和验证码的处理、动态页面的分析方法、scrapy框架基础、应对反爬虫策略、scrapy数据存储、提交数据和保持登录、crawlspider模板、图片...

爬虫开发Python开发简单爬虫实例代码.zip: 爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫...

pythonscrapy爬虫实例Python爬虫Scrapy实例: pythonscrapy爬虫实例Python爬虫Scrapy实例

完整版精品Python网络爬虫教程数据采集信息提取课程全套PPT课件共12个章节.rar: Python网络爬虫教程数据采集信息提取课程 06-实例1-中国大学排名爬虫（共26页）.pptx Python网络爬虫教程数据采集信息提取课程 07-Re(正则表达式)库入门（共51页）.pptx Python网络爬虫教程数据采集信息提取...

源码10 个 Python 爬虫入门实例: 【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例...

[优]3 利用Python编写简单网络爬虫实例3.pdf: 利用Python编写简单网络爬虫实例一些python爬虫的实例

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf: Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，大概也是这个意思吧，就叫它：小刮刮吧。小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架，它可以应用在广泛领域：数据挖掘、信息处理和或者...

完整版精品Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx: 【课程简介】本课程适合所有需要弥补python网络爬虫的同学，课件内容制作精细，由浅入深，适合入门或进行知识回顾。...Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

Python网络爬虫实例讲解: 聊一聊Python与网络爬虫。 1、爬虫的定义爬虫：自动抓取互联网数据的程序。 2、爬虫的主要框架爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待爬取的URL链接，...

完整版精品Python网络爬虫教程数据采集信息提取课程 08-实例2-淘宝商品信息定向爬虫（共17页）.pptx: 【课程简介】本课程适合所有需要弥补python网络爬虫的同学，课件内容制作精细，由浅入深，适合入门或进行知识回顾。...Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

Python-爬虫课件.ppt: “网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

完整版精品Python网络爬虫教程数据采集信息提取课程 06-实例1-中国大学排名爬虫（共26页）.pptx: 【课程简介】本课程适合所有需要弥补python网络爬虫的同学，课件内容制作精细，由浅入深，适合入门或进行知识回顾。...Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 02-网络爬虫的盗亦有道（共19页）.pptx: 【课程简介】本课程适合所有需要弥补python网络爬虫的同学，课件内容制作精细，由浅入深，适合入门或进行知识回顾。...Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

Python网络爬虫实战(完整版,高清: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

Global site tag (gtag.js) - Google Analytics