今天将网易首页作为demo爬下来
1.用python自带的模块 urllib2作为爬去的工具
2.用beautifulSoup作为解析爬去页面的工具
python在书写上确实秒杀java的,几句话就能解析掉整个网页,而且BeautifuSoup能够补全缺失的HTML标签,赞一个。
但是,中文乱码的事情还是出现了,我看了下网易用的gb2312的编码集。
content = "我是网易GB2312“、
contentUnicode = content.decode("gb2312") #将content这个编码集从gb2312转到了unicode编码集中
contentGBK = contentUnicode.encode("gbk") #将contentUnicode编码集从unicode转到了GBK
这个两个方法是从用的,网上也有很多的资料。
我也转过去了,但是遇到的问题
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 44844-44845: illegal multibyte sequence
搞了一个早上都没有解决掉这个问题。真是痛苦啊。。。,WHY WHY WHY????
分享到:
相关推荐
python 中文乱码 问题深入分析.docx
Python 中文乱码问题深入分析,理解Python的编码转换方法
Python中文乱码Python中文乱码Python中文乱码Python中文乱码Python中文乱码
Python中文乱码详解[定义].pdf
解决了python 中文乱码的问题, 已经进行测试,可用。
Python中文乱码详解.pdf
主要介绍了linux下python中文乱码解决方案详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Python中文乱码详解.rar
曾几何时 Python 中文乱码的问题困扰了我很多很多年,每次出现中文乱码都要去网上搜索答案,虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼,究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文...
Python中文乱码详解参考.pdf
python 中文乱码问题深化分析.docx
解决python中文乱码问题、首先发送请求,然后将请求返回的值传到coding(req)函数。
主要介绍了c++调用python中文乱码问题,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
今天在用python3+ImageFont输出中文时,结果显示乱码 # coding:utf-8 from PIL import Image, ImageDraw, ImageFont image= Image.new('RGB', (559, 320),(255,255,255)) draw = ImageDraw.Draw(image) # draw.text...
一、python中的str和unicode 一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢? 在python中提到unicode,一般指的是unicode对象,例如...