上一篇说道我们要采集http://www.gg4493.cn/的数据,接下来:
步骤2:对于每一个链接,获取它的网页内容。
很简单,只需要打开urls.txt文件,一行一行地读出来就可以了。
也许这里会显得多此一举,但是基于我对解耦的强烈愿望,我还是果断地写到文件里了。后面如果采用面向对象编程,重构起来是十分方便的。
获取网页内容部分也是相对简单的,但是需要把网页的内容都保存到一个文件夹里。
这里有几个新的用法:
复制代码 代码如下:
os.getcwd()#获得当前文件夹路径
os.path.sep#当前系统路径分隔符(是这个叫法吗?)windows下是“\”,linux下是“/”
#判断文件夹是否存在,如果不存在则新建一个文件夹
if os.path.exists('newsdir') == False:
os.makedirs('newsdir')
#str()用来将某个数字转为字符串
i = 5
str(i)
有了这些方法,将字符串保存到某个文件夹下不同的文件就不再是一件困难的事了。
步骤3:枚举每一个网页,根据正则匹配获得目标数据。
下面的方法是用来遍历文件夹的。
复制代码 代码如下:
#这个是用来遍历某个文件夹的
for parent, dirnames, filenames in os.walk(dir):
for dirname in dirnames
print parent, dirname
for filename in filenames:
print parent, filename
遍历,读取,匹配,结果就出来了。
我使用的数据提取的正则表达式是这样的:
复制代码 代码如下:
reg = '<div class="hd">.*?<h1>(.*?)</h1>.*?<span class="pubTime">(.*?)</span>.*?<a .*?>(.*?)</a>.*?<div id="Cnt-Main-Article-QQ" .*?>(.*?)</div>'
其实这个并不能匹配到所有内容,因为上面的新闻有两种格式,标签有一点差别,所以只能提取出一种。
另外一点就是通过正则表达式的提取肯定不是主流的提取方法,如果需要采集其他网站,就需要变更正则表达式,这可是一件比较麻烦的事情。
提取之后观察可知,正文部分总是会参杂一些无关信息,比如“<script>...</script>”“<p></p>”等等。所以我再通过正则表达式将正文切片。
复制代码 代码如下:
def func(str):#谁起的这个名字
strs = re.split("<style>.*?</style>|<script.*?>.*?</script>|&#[0-9]+;|<!--
>.+?<!
-->|<.*?>", str)#各种匹配,通过“|”分隔
ans = ''
#将切分的结果组合起来
for each in strs:
ans += each
return ans
这样网页上面的正文基本全部能够提取出来。
到此整个采集也就结束了。
来源:http://www.m4493.com
相关推荐
python网络数据采集(高清含书签源码)
Python 爬虫源码实例合集,本人亲测修改,这些源码是研究搜索引擎爬虫的书籍中的源代码,一共包括了9章内容,源代码中有很多模拟爬虫抓取网页的例子,比如模拟Google搜索引擎抓取等,几乎每一个代码文件都涉及到网络...
python 使用 snap7 实现西门子 plc 1200的读写 地址读写
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下: #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:get_baike.py import urllib2,re import sys def getHtml(url,...
内容概要:该资源是一份Python...其他说明:本资源内容详实,通过代码实例和案例演示让读者更好地理解Python爬虫的使用方法和技巧,同时也有一些注意事项和常见问题的解答,帮助读者更好地掌握Python爬虫实战的技能。
解锁网络数据的宝藏:Python爬虫工具与教程集合 一、探索网络信息的无限宝藏 在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源...
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
python数据清洗实例 Python数据清洗实例 ... 数据重复处理 python数据清洗实例全文共2页,当前为第1页。 在数据中,经常会出现重复的数据。重复的数据可能会影响数据分析的结果。因此,在进行数据分析之前,我们需要
互联网地图上有大量的信息,包含公交、地铁等数据,解析其数据反馈方式,可以通过Python爬虫采集。闲言少叙,接下来将详细介绍如何使用Python爬虫爬取城市公交、地铁站点和数据。 首先,爬取研究城市的所有公交和...
Python爬虫_城市公交、地铁站点和线路数据采集实例含程序源代码.zip
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
在本篇文章中小编给大家整理的是关于Python批量查询关键词微信指数实例方法以及相关代码,需要的朋友们可以跟着学习下。
主要介绍了Python+Dlib+Opencv实现人脸采集并表情判别,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下 Python+Dlib+Opencv实实现现人人脸脸采采集集并并...
08-实例2-淘宝商品信息定向爬虫(共17页).pptx 09-实例3-股票数据定向爬虫(共23页).pptx 10-Scrapy爬虫框架(共34页).pptx 11-Scrapy爬虫基本使用(共32页).pptx 12-实例4-股票数据定向Scrapy爬虫(共23页)....
usb2187板卡的实例程序,在数据采集程序编写的时候这个非常的有用,还可以作为c++学习的样板程序
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...
Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫(共17页).pptx Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫(共23页).pptx Python网络爬虫教程 数据采集 信息...