#coding=utf-8
'''
Created on 2012-5-17
@author: chenhuiting
'''
import sys
import urllib2
import gzip
import StringIO
# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"
request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()
# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
page = unicode(page, page_encode)
print(page)
分享到:
相关推荐
主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下
主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下
python 抓取1688店铺产品详情,爬虫
本文档包括在网上搜集的众多基于Python的网页抓取实例,包括代码及说明,不是原创,只是收集了一下 里面有些例子确实很不错,看了几个例子我尝试编写了个QQ空间日志备份程序,效果还不错 (详见资源: ...
python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片
Python 爬虫抓取Ebay上的数据, 利用BeautifulSoup 和Urllib2进行页面抓取
实现抓取新闻页面所有新闻链接对应页面到本地
而在网络爬虫方面,Python也是一个非常强大的工具。本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要...
利用python抓取网站界面中的图片,亲测可用,不同的网站只需修改抓取规则即可
抓取页面正文python版,BeautifulSoup版,欢迎下载
Python的网页数据抓取,表格的制作,CSS文件的生成,字体的改变
本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下: Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys...
与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个 挑战,即你不知道会获得什么。好在有几种基本的方法可以识别页面类型。 通过URL 一个网站中所有的博客文章可能都会包含一个 URL(例如 ...
python页面抓取
Python爬虫--抓取百度百科的前1000个页面的实现。
一个Python模块用于抓取几个搜索引擎bd,gg,soso 实现一个Python模块用于抓取几个搜索引擎,可以按照以下概念进行设计: 1. **搜索引擎选择:** 选择几个目标搜索引擎,如Google、Bing、Baidu等。 2. **构建搜索...
基础环境:python + flask + vue + element-ui + echarts python_spiders -- 爬虫后台项目 python_spiders_web -- 爬虫前台项目 运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue ...
一个Python多线程爬虫,在工作时,开10个线程来抓取新浪网页的数据,抓取并保存页面, 并且根据deep返回页面链接,根据key确定是否保存该页面,其中: deep == 0时,是抓取的最后一层深度,即只抓取并保存页面,不...
网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器
python抓取数据入库,包括连接数据库要用到的Sqlhelper.py文件,配置文件baseinfo.xml,配置文件中可以自定义标签