#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/1/23 15:42 # @Author : Aries # @Site : # @File : yy.py # @Software: PyCharm import requests import time from lxml import html headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36", 'x-devtools-emulate-network-conditions-client-id': "(6DC99B5E32009D9E60CDB0C3B620074)", 'upgrade-insecure-requests': "1", 'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", 'accept-language': "zh-CN,zh;q=0.9,en;q=0.8", 'cookie': "udb_passdata=1; PHPSESSID=91siudst3ptb6egbjgh8j3rn42; SoundValue=0.50; guid=0e74abb6d4e5665a0c52c0e3c1e35727; __yasmid=0.2352245147818357; __yamid_tt1=0.2352245147818357; __yamid_new=C7D8A9F6CD3000013AA46C206EC0135D; _yasids=__rootsid%3DC7D8A9F6CDA00001226020701A00E5B0; Hm_lvt_51700b6c722f5bb4cf39906a596ea41f=1516692949; isInLiveRoom=; Hm_lpvt_51700b6c722f5bb4cf39906a596ea41f=1516696335", 'cache-control': "no-cache", } class huyaFcukYouSpider: urlStyle = "http://www.huya.com/g" ''' 解析出来全部分类网页内容 ''' def huyaRootHtml(self): print("开始分析虎牙分类======》》》") roothtml = requests.get(huyaFcukYouSpider.urlStyle,headers = headers) print("爬分类返回状态码======》》》"+str(roothtml.status_code)) return roothtml.text ''' 解析出来分类html ''' def itmStyle(self,roothtml): tree = html.fromstring(roothtml) hrefs = tree.xpath('//*[@id="js-game-list"]/li/a/@href') texts = tree.xpath('//*[@id="js-game-list"]/li/a/img/@title') styleObjects = [] for (text, href) in zip(texts, hrefs): styleObject = {"text":text,'href':href} styleObjects.append(styleObject) print("分类已经获取成功,大哥开始对下面的频道吧") print("分类数量:"+ str(len(styleObjects))) return styleObjects ''' 请求频道内的信息 ''' def itemContent(self, styleObjects): for item in styleObjects: print("开始分析 "+item["text"]+" ======》》》") itemhtml = requests.get(item["href"], headers=headers) print("爬"+item["text"]+"返回状态码======》》》" + str(itemhtml.status_code)) tree = html.fromstring(itemhtml.text) titles = tree.xpath('//*[@id="js-live-list"]/li/a[contains(@class,"title") and contains(@class,"new-clickstat")]/text()') nicknames = tree.xpath('//*[@id="js-live-list"]/li[@class="game-live-item"]/span/span[contains(@class,"avatar") and contains(@class,"fl")]/i/text()') numbers = tree.xpath('//*[@id="js-live-list"]/li[@class="game-live-item"]/span/span[@class="num"]/i[@class="js-num"]/text()') for (title, nickname,number) in zip(titles, nicknames,numbers): print("\t\t主播:"+nickname+";正在频道名称为: "+title +"直播,观看人数:"+str(number)) #感觉慢就去掉 time.sleep(1) # 感觉慢就去掉 time.sleep(10) pass def go(self): rootHtml = self.huyaRootHtml() styleObjects = self.itmStyle(rootHtml) self.itemContent(styleObjects) huya = huyaFcukYouSpider() huya.go()
感觉慢就把time.sleep去掉
相关推荐
Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。Python requests爬虫实例
京东商品和评论爬虫requests(代码可用)
北航博雅课程 Python + requests 爬虫接口.zip 北航博雅课程 Python + requests 爬虫接口。 提供最基本的登录,查询,选课,退选接口。 你可以在此之上开发自己的程序。 安装 python 安装依赖包,在终端输入以下...
# 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库,不然调用不了爬虫的函数 response = requests.get("http://www.baidu.com") #生成一个response对象 ...print(response.text)#输出爬取的信息
pyhton+requests 爬链家二手房
Python requests 爬虫
爬虫 requests pandas multiprocessing 多线程 用pandas处理数据
网络爬虫,也称为网页爬虫,是一种用于抓取和提取网络信息的程序。它可以模仿人类在网络上浏览和查找信息的行为,自动地检索、提取和存储网络上的信息。本文将为读者介绍如何使用Python语言进行网络爬虫,从零基础开始...
嵩天老师的爬虫讲义
发现之前学习爬虫有些粗糙,竟然连requests中添加cookies都没有掌握,惭愧。废话不宜多,直接上内容。 我们平时使用requests获取网络内容很简单,几行代码搞定了,例如: import requests res=requests.get...
requests和urllib实现简单爬虫
Python网络爬虫教程 数据采集 信息提取课程 01-Requests库入门(共59页).pptx Python网络爬虫教程 数据采集 信息提取课程 02-网络爬虫的盗亦有道(共19页).pptx Python网络爬虫教程 数据采集 信息提取课程 03-...
两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万字博文教你python爬虫requests库【详解篇】.pdf 两万...
Python网络爬虫教程 数据采集 信息提取课程 01-Requests库入门(共59页).pptx Python网络爬虫教程 数据采集 信息提取课程 02-网络爬虫的盗亦有道(共19页).pptx Python网络爬虫教程 数据采集 信息提取课程 03-...
python商品评论数据采集与分析可视化系统 Flask框架 requests爬虫 NLP情感分析 毕业设计 源码 一、项目介绍 python商品评论数据采集与分析可视化系统 Flask框架、MySQL数据库、 requests爬虫、可抓取指定商品评论、...
最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。 import ...
使用正则表达式和requests,抓取猫眼 TOP100 的电影信息
房屋信息抓取 知识点:使用requests库 爬虫程序编写流程 爬虫的技术选型 爬虫的编写主要有两种形式: requests + beautifulsoap或者lxml 使用成熟的爬虫框架,例如Scrapy 两种选型的比较 requests ,beautifulsoap,...
本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts Bootstrap 来构建前端页面,来展示爬取到的数据。
接下来,文章详细展示了如何使用Requests库发送GET和POST请求,以及如何自定义请求头和参数,让读者能够快速上手进行网络数据获取。然后,文章引入了响应处理与解析的内容。读者将学习如何获取响应内容和响应头信息...