- 通过workon进入后创建的虚拟环境article_spider
- 虚拟环境只是用来关联项目的环境的例如,pip加载的一些插件也会直接放入你的虚拟环境中
- 在e盘创建一个scrapy 项目:
pip install scrapy
window10的环境下可能会报错,因为一个需要安装一个window10的本地环境,需要去 - http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
- 下载:Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl
根据你的版本来的我的python3.6的 环境下是window10的64位然后安装这个,还在这个虚拟环境里面安装啊可不要跳出来
pip install D:\Python\Scripts\Twisted-17.1.0-cp36-cp36m-win_amd64.whl
开始安装框架项目
scrapy startproject ArticleSpider
会提示:
New Scrapy project 'ArticleSpider', using template directory 'e:\\evns\\articel_spider\\lib\\site-packages\\scrapy\\templates\\project', created in:
E:\pythonShare\ArticleSpider
然后按照提示添加要爬取的网站 一定要到这个你新建的项目目录下 例如 你创建的项目是:
E:\pythonShare\ArticleSpider 在这个目录下
输入命令
scrapy genspider 项目名称 blog.jobbole.com
项目创建完成
- 通过pycharm启动项目后创建main.py
-
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : main.py # @Author: 李明 # @Date : 2017/12/10 # @Desc : from scrapy.cmdline import execute import sys import os print(os.path.dirname(os.path.abspath(__file__))) sys.path.append(os.path.dirname(os.path.abspath(__file__))) execute(["scrapy","crawl","jobbole"])
其实就是在cmd命令行中输入:scrapy crawl jobbole - 会爆一个错误No module named 'win32api'
- 安装这个通过命令
pip install pypiwin32
- 返回的是个数组extract(),通过strip()去掉空格回城换行等,replace("原来的","替换的")
re_selector.extract()
print(re_selector.extract()[0].strip())
相关推荐
毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫设计+源码案例+Python + Scrapy + redis 毕业设计+Python基于Scrapy+Redis分布式爬虫...
Python 3.8.2 scrapy 框架 安装依赖包,pip install 经常失败的几个依赖。
程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,通过...
python3.7 scrapy简单爬虫入门基于 http://www.okhqb.com/ 网站的简单示例。。
基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库
Python之scrapy爬虫文件,包括案例分析,具体讲解
pythonscrapy爬虫实例Python爬虫Scrapy实例
利用python的scrapy框架爬取天气预报的信息,是python爬虫入门的好程序,如果还有小伙伴不会运行scrapy框架程序的,可以在下方评论区里说明。
基于python和scrapy的电影数据爬虫,爬取电影评分以及简介名称数据,将其储存在csv当中,适用于课程设计、爬虫作业。
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都...
Python 爬虫Scrapy课件源码Python 爬虫Scrapy课件源码Python 爬虫Scrapy课件源码Python 爬虫Scrapy课件源码Python 爬虫Scrapy课件源码
使用python+scrapy爬取新浪微博的用户基本资料、关注和粉丝
精通Python爬虫框架Scrapy.pdf
使用Python语言,Scrapy框架开发爬虫示例(含翻页、图片下载、部署等详细信息及踩坑记录)
程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库做分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,...
Python爬虫 Scrapy框架测试案例
基于python scrapy框架抓取豆瓣影视资料
python+scrapy弄了好几天,今天终于弄好了,特地把需要用到的资源整合下,希望以后有用到的童鞋不用再像咱这样一弄就是好几天,太浪费时间了。