源码如下:
# -*- coding: utf-8 -*- # @Time : 2017/5/18 17:38 # @Author : xiaojingjing # @Site : # @File : finde_mmimg.py # @Software: PyCharm import urllib.request import os,shutil def url_open(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36') response=urllib.request.urlopen(url) html=response.read() return html def get_page(url): html=url_open(url).decode('utf-8') a=html.find('current-comment-page')+23 b=html.find(']',a) return html[a:b] def find_imgs(url): html=url_open(url).decode('utf-8') img_addrs=[] a=html.find('img src=') while a!= -1: b=html.find('.jpg',a,a+255) if b!=-1: img_addrs.append('http:'+html[a+9:b+4]) else: b=a+9 a=html.find('img src=',b) print(img_addrs) return img_addrs def save_imgs(folder,img_addrs): for each in img_addrs: filename=each.split('/')[-1] with open(filename,'wb') as f: img=url_open(each) f.write(img) def download_mm(folder='ooxx'): pages=int(input("请输入需要下载多少页:")) print("判断文件夹是否存在..........") if os.path.exists('ooxx'): print("存在,删除中··········") shutil.rmtree('ooxx') print("删除完毕!") else: print("新建文件夹",folder,"中...........") os.mkdir(folder) os.chdir(folder) print("新建完成..............") url="http://jandan.net/ooxx/" page_num=int(get_page(url)) for i in range(pages): page_num -=i page_url=url+'page-'+str(page_num)+'#comments' img_addrs=find_imgs(page_url) save_imgs(folder,img_addrs) if __name__=='__main__': download_mm()
相关推荐
通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests
通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests,上一个的改良版
然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider) scrapy genspider -t crawl 爬虫名称 域名 2.然后打开pycharm打开scrapy项目 记得要选正确项目包的路径要包含scrapy.cfg 要不然在后面会导致导入...
利用python爬取指定关键词的百度图片
python抓取网站图片并放到指定文件夹 复制代码 代码如下:# -*- coding=utf-8 -*-import urllib2import urllibimport socketimport osimport redef Docment(): print u’把文件存在E:\Python\图(请输入数字或字母)...
大家可以在Github上clone...在开始爬取之前,必须创建一个新的Scrapy项目。 进入打算存储代码的目录中,运行下列命令: scrapy startproject CrawlMeiziTu 该命令将会创建包含下列内容的 tutorial 目录: CrawlMeiziTu/
爬取百度图片例子程序python语言: 使用 requests 库发送 HTTP 请求到百度图片搜索页面,搜索关键词为 search_query。 使用 BeautifulSoup 库解析...遍历图片标签,提取每张图片的 URL,并下载保存到指定的文件夹中。
python网络爬取图片,爬取一个网站的图片并保存至本地指定文件夹
最近在做机器学习的文本分类,python学的不到家,导致一些小问题迟迟没解决,幸亏有...text = open('./data/123.txt',r, encoding='UTF-8').read() #从指定文件夹打开TXT文件,原文件的编码格式为UTF-8 b=re.split('\n
爬取一手(快时尚女装批发app)的指定店铺内所有商品的商品主图和商品详情页图片并且分别保存至对应文件夹,输出汇总excel表。 适合同步店铺商品,发布至其他平台。
运行main_search.py根据你的公司名搜索进行爬取指定公司 注意: 1,代理IP请自费或自力更生建免费IP池 2,本项目自带云数据库,可直接使用,用你的电脑直接加入爬虫计划,我愿称之为 “分布式”爬虫 3,如果想用...
其中可爬取指定新闻网站、指定日期新闻并保存在指定的系统目录文件夹下。在本程序中,可以选择是否对人民日报网站、网易社会新闻、百度新闻网站进行新闻爬取。在分类预备文件中,对爬取的每篇新闻进行除汉字外的字符...
表示从第10页开始扫描到第12页,图片保存文件夹为cache,获取页面失败最多可以尝试3次。 3.运行期间可以随时按回车键退出程序。 运行atlas.py文件爬取网站二: 1.不带参数运行:直接运行atlas.py,使用默认配置参数...
定时爬取指定连接的内容,加入所爬取到的内容保存到指定文件夹中 调用加载到HBase数据库的项目(Jar),使数据加载到HBase中 2.加载数据到HBase数据库项目 读取指定目录下的文件,分析其中的内容并保存到HBase中 多...
支持爬取题目列表(中英文),保存为指定目录下的 README 和 README_EN 文件 支持爬取题目描述(中英文),保存为对应 title 文件夹下的 README 和 README_EN 文件 支持爬取用户提交的代码,保存为对应 title 文件夹...
实例68 Python批量新建文件夹并保存日志信息 实例52 Pandas提取指定数据并保存在原Excel工作簿中 实例61 Python制作图形用户界面(GUI)让操作可视化 实例69 Python保留格式复制多个excel工作表到汇总表并生成目录 ...
所有爬取的图集将位于Gallery文件夹下的对应名称的文件夹内, meta.json中保存的是图集的元信息,如标签,图片数,图片源链接等 支持链接输入或通过启动参数预设爬取链接 BatchDownload.py可以自动多进程批量下载...
介绍 ... 视频保存在videos文件夹中; 使用说明 uid是A站up主的唯一标识,可以去你喜欢的up主的主页复制; 爬取数量不要超过该up主的视频总数; 只要没退出程序就说明正在下载,请耐心等待;
题目爬取工具,可以爬取题目并按文件夹保存,方便整理自己的解题记录。 功能介绍 目前实现了爬取 leetcode-cn 上 golang 题目的支持,会生成 solution.go 模板文件和包含中文题目描述的 readme.md。 做这个工具是...
支持爬取题目列表(中英文),保存为指定目录下的 README 和 README_EN 文件 支持爬取题目描述(中英文),保存为对应 title 文件夹下的 README 和 README_EN 文件 支持爬取用户提交的代码,保存为对应 title 文件夹...