python中文乱码 - Hi, Sun - ITeye博客

`

endual

浏览: 3510579 次
性别:
来自: 杭州

最近访客更多访客>>

wrgjwrrjurhj

sindyqiu

kristy_yy

whzresponse

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

endual： https://blog.csdn.net/chenxbxh2 ...
IE6 bug
ice86rain：你好，ES跑起来了吗？我的在tomcat启动时卡在这里Hibe ...
ES架构技术介绍
TopLongMan： ...
java public ,protect,friendly,private的方法权限（转）
贝塔ZQ： java实现操作word中的表格内容，用插件实现的话，可以试试 ...
java 读取 doc poi读取word中的表格(转)
ysj570440569： Maven多模块spring + springMVC + JP ...
Spring+SpringMVC+JPA

python中文乱码

博客分类：

python

阅读更多

今天将网易首页作为demo爬下来

1.用python自带的模块 urllib2作为爬去的工具

2.用beautifulSoup作为解析爬去页面的工具

python在书写上确实秒杀java的，几句话就能解析掉整个网页，而且BeautifuSoup能够补全缺失的HTML标签，赞一个。

但是，中文乱码的事情还是出现了，我看了下网易用的gb2312的编码集。

content = "我是网易GB2312“、

contentUnicode = content.decode("gb2312") #将content这个编码集从gb2312转到了unicode编码集中

contentGBK = contentUnicode.encode("gbk") #将contentUnicode编码集从unicode转到了GBK

这个两个方法是从用的，网上也有很多的资料。

我也转过去了，但是遇到的问题

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 44844-44845: illegal multibyte sequence

搞了一个早上都没有解决掉这个问题。真是痛苦啊。。。，WHY WHY WHY？？？？

分享到：

解决python的中文乱码问题(转) | python httplib2与urllib2包的介绍（转）

2012-03-21 08:22
浏览 2689
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python 中文乱码问题深入分析.docx: python 中文乱码问题深入分析.docx

Python 中文乱码问题深入分析: Python 中文乱码问题深入分析，理解Python的编码转换方法

Python中文乱码: Python中文乱码Python中文乱码Python中文乱码Python中文乱码Python中文乱码

Python中文乱码详解[定义].pdf: Python中文乱码详解[定义].pdf

python 中文乱码: 解决了python 中文乱码的问题，已经进行测试，可用。

Python中文乱码详解.pdf: Python中文乱码详解.pdf

linux下python中文乱码解决方案详解: 主要介绍了linux下python中文乱码解决方案详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

Python中文乱码详解.rar: Python中文乱码详解.rar

彻底搞懂 python 中文乱码问题(深入分析): 曾几何时 Python 中文乱码的问题困扰了我很多很多年，每次出现中文乱码都要去网上搜索答案，虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼，究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文...

Python中文乱码详解参考.pdf: Python中文乱码详解参考.pdf

python 中文乱码问题深化分析.docx: python 中文乱码问题深化分析.docx

python解决中文乱码问题: 解决python中文乱码问题、首先发送请求，然后将请求返回的值传到coding（req）函数。

解决c++调用python中文乱码问题: 主要介绍了c++调用python中文乱码问题,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

解决Python3用PIL的ImageFont输出中文乱码的问题: 今天在用python3+ImageFont输出中文时，结果显示乱码 # coding:utf-8 from PIL import Image, ImageDraw, ImageFont image= Image.new('RGB', (559, 320),(255,255,255)) draw = ImageDraw.Draw(image) # draw.text...

python 中文乱码问题深入分析: 一、python中的str和unicode 一直以来，python中的中文编码就是一个极为头大的问题，经常抛出编码转换的异常，python中的str和unicode到底是一个什么东西呢？在python中提到unicode，一般指的是unicode对象，例如...

Global site tag (gtag.js) - Google Analytics