python抓取一个页面 - - ITeye博客

`

have_life

浏览: 146860 次

最近访客更多访客>>

siyu3223

dong_junshuai

thornbird313

xiaomabobo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Rannn：我只是偶尔路过的。二叉树的深度为lg(n) 叶子为2^(L-1 ...
完全二叉树叶子节点个数计算问题
have_life：按住Ctrl+Shift 然后按 -> 这样的光标键， ...
eclipse快捷键
have_life：启动chrome隐身模式 Ctrl + Shift + N ...
快速恢复刚刚关闭的Chrome标签页的方法
have_life： Shift + Alt + A 光标会变成一个十字 ...
eclipse快捷键
have_life： Ctrl + Shift + X 把所有选中字母变大写Ctrl ...
eclipse快捷键

python抓取一个页面

博客分类：

python

python html 页面抓取

阅读更多

#coding=utf-8
'''
Created on 2012-5-17

@author: chenhuiting
'''

import sys
import urllib2
import gzip
import StringIO
 
# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"
 
request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
    page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()
 
# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
    page = unicode(page, page_encode)
 
print(page)

分享到：

python 解析html | python 允许出现中文字符

2012-05-17 11:09
浏览 1114
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python抓取并保存html页面时乱码问题的解决方法: 主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下

Python实现抓取HTML网页并以PDF文件形式保存的方法: 主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下

python 抓取1688店铺产品详情爬虫: python 抓取1688店铺产品详情，爬虫

Python抓取页面、Pthon爬虫参考资料: 本文档包括在网上搜集的众多基于Python的网页抓取实例，包括代码及说明，不是原创，只是收集了一下里面有些例子确实很不错，看了几个例子我尝试编写了个QQ空间日志备份程序，效果还不错（详见资源： ...

python爬虫抓取页面图片: python爬虫抓取页面图片python爬虫抓取页面图片python爬虫抓取页面图片

Python爬虫抓取Ebay页面: Python 爬虫抓取Ebay上的数据, 利用BeautifulSoup 和Urllib2进行页面抓取

python抓取网页到本地实例程序: 实现抓取新闻页面所有新闻链接对应页面到本地

python抓取网页上想要的任何数据.txt: 而在网络爬虫方面，Python也是一个非常强大的工具。本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程首先，我们需要明确一下Python抓取网页数据的基本流程。通常情况下，我们需要...

python 爬虫之抓取页面图片: 利用python抓取网站界面中的图片，亲测可用，不同的网站只需修改抓取规则即可

抓取页面正文python版: 抓取页面正文python版,BeautifulSoup版,欢迎下载

Python网页数据抓取以及表格的制作: Python的网页数据抓取，表格的制作，CSS文件的生成，字体的改变

Python实现抓取网页生成Excel文件的方法示例: 本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考，具体如下： Python抓网页，主要用到了PyQuery，这个跟jQuery用法一样，超级给力示例代码如下： #-*- encoding:utf-8 -*- import sys...

python抓取多种类型的页面方法实例: 与抓取预定义好的页面集合不同，抓取一个网站的所有内链会带来一个挑战，即你不知道会获得什么。好在有几种基本的方法可以识别页面类型。通过URL 一个网站中所有的博客文章可能都会包含一个 URL（例如 ...

python页面抓取: python页面抓取

Python爬虫--抓取百度百科的前1000个页面: Python爬虫--抓取百度百科的前1000个页面的实现。

一个Python模块用于抓取几个搜索引擎bd,gg,soso: 一个Python模块用于抓取几个搜索引擎bd,gg,soso 实现一个Python模块用于抓取几个搜索引擎，可以按照以下概念进行设计： 1. **搜索引擎选择：** 选择几个目标搜索引擎，如Google、Bing、Baidu等。 2. **构建搜索...

python+vue实现网站爬虫&数据分析案例: 基础环境：python + flask + vue + element-ui + echarts python_spiders -- 爬虫后台项目 python_spiders_web -- 爬虫前台项目运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue ...

10个线程的Python多线程爬虫（采集新浪数据）.rar: 一个Python多线程爬虫，在工作时，开10个线程来抓取新浪网页的数据，抓取并保存页面, 并且根据deep返回页面链接，根据key确定是否保存该页面,其中: 　deep == 0时，是抓取的最后一层深度，即只抓取并保存页面，不...

网页FLASH抓取器: 网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器网页FLASH抓取器

python小程序：数据抓取入库: python抓取数据入库，包括连接数据库要用到的Sqlhelper.py文件，配置文件baseinfo.xml，配置文件中可以自定义标签

Global site tag (gtag.js) - Google Analytics