import urllib2, re
def fetch_links(furl,burl,stag,etag):
'''
抓取网页新闻
@param furl 抓取网页地址
@param burl 网页链接的baseurl,比如凤凰网的链接:<a href="/news/guoji/dir?cid=14&mid=7sdLRL">国际</a>, 根据baseurl可返回<a href="http://i.ifeng.com/news/guoji/dir?cid=14&mid=7sdLRL">国际</a>
@param stag 抓取网页链接的开始标签
@param etag 抓取网页链接的结束标签
@return 加了baseurl的链接列表
说明: 正则表达式中 '.*?', 采用非贪婪模式匹配多个字符
'''
req = urllib2.Request(furl)
fd = urllib2.urlopen(req)
content = fd.read()
fd.close()
m = re.findall(stag+'.*?'+etag,content)
return [j.replace('<a href="', '<a href="'+burl) for j in m]
分享到:
相关推荐
python 抓取百度云分享数据,百度云最新接口抓取分享链接。
Python 抓取网页下载链接
主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下
python抓取
使用Python抓取京东数据,并用mySQL存取数据
Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片
Python 抓取百度贴吧里边的图片内容
主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下
python 抓取1688店铺产品详情,爬虫
Python爬虫下载磁力链接
python 抓取一个网站所有图片并保存。 python 抓取一个网站所有图片并保存 python 爬虫
基于python抓取豆瓣电影TOP250的数据及进行分析.pdf
python抓取百度搜索的数据,智普推荐使用教程
主要为大家详细介绍了python抓取网页中链接的静态图片,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
地图瓦片抓取之python
Python代码抓取获取天气预报信息源码讲解。这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单。这段代码可以获取当地的天气和、任意城市的天气预报...python抓取广州天气并分析 实例源码
本文档包括在网上搜集的众多基于Python的网页抓取实例,包括代码及说明,不是原创,只是收集了一下 里面有些例子确实很不错,看了几个例子我尝试编写了个QQ空间日志备份程序,效果还不错 (详见资源: ...
Python抓取网页代码 抓取了国家环境网站上的一组AQI数据