`
newsjobs
  • 浏览: 40056 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

记录使用Python+Webpy+Android做一个网站应用的过程 五----中文编码

阅读更多
应该在昨天就写出这篇文章,偷懒了,直到现在才敲起键盘

这两天最主要的工作就是实现抓取文章,提取正文,以及存储到数据库这样一个过程。

关于抓取文章,提取正文,主要是应用了 beautifulsoup这样一个第三方的解析包来做。鼓捣了一阵还算顺利拿下来了一个网站的主页文章。
关于 beautifulsoup 的性能还没做测试,至少目前用不到,以后需要的再说。

遇到一个很头疼的问题就是关于中文编码的问题。关于中文编码的问题在过程中遇到了两个门槛。
1, 我把取到的中文放到了一个dict对象content里面面。然后就是做测试做了一个
content.items()
。输出的是编码,而不是汉字。当时就跟纳闷,一顿google,没有找到直接对这个问题做解释的,倒是对python的unicode编码问题了解了一些。但是如果直接
print content.values()[0] 
的话还是能够正确输出中文。我的理解可能是因为直接使用
content.items()
的时候python并没有像使用的时候做编码的转化。所以直接输出的是编码字符。而且自此后我在python module的第一行都加上了# -*- coding: utf-8 -*-

2, 接着遇到的问题就是把中文存到mysql数据库的问题。导致有问题的是多方面的,我把整个过程写下来,希望对其他人有些许帮助
    在往数据库写数据的时候python代码报错,显示latin1无法解析某某位置的码。我第一个反应是mysql数据库的编码问题。(在此插一句,我用的mysql是免安装版本的,在使用过程中遇到了各种问题,各种。。。建议初学者还是能选择mysql安装版。)
查看schema,果然是latin1的编码,遂更改了schema和各个table的编码到utf8
再试,一样的错误。。开始有点崩溃。又一顿google,得出了要更改MySQLdb源代码的建议。个人觉得这种方法有可能解决问题,但未必是从根本上来解决。除非是真没辙了才会考虑这种方案。
    但我报错的代码和那个帖子位置不一样,我还是试着在那行代码hardcode了"utf-8"再试,代码不再报错,可以插入数据库。但中文都是乱码。再次崩溃
    此时我想起在初始化dbconnection的时候没有设置charset值。遂又set为"utf-8",再试,再次报错。。。又一顿整,意识到应该改为"utf8",代码不再报错,另外我把hardcode的那行代码改回去,代码也不再报错,可以插入到数据库,不过中文依然是乱码。很崩溃。
    这时我就开始怀疑这个免安装版本的mysql有问题。网上又下载了安装版的。一顿折腾,错误依旧。所以能改的地方都改了,就是乱码。开始绝望了。。
    我开始仔细看table的导出的sql create statement,终于让我注意到了一个细节。
原来因为我最先的时候数据库编码默认为latin1,结果在建立表的时候,mysql自动为每一列也加上了charset latin1。也就是说虽然我更改了schema和table的编码到utf8但每一列的编码依旧是latin1。马上全部改为utf8。再试,终于能在table里看到熟悉的方块字了。。。

自此,中文编码的问题算是告了一个段落了。

后来想了想,如果一开始我就是用的mysql安装版的话,它会自动提示选择什么默认的编码,我当然会选择utf8,这样的话,中文编码的问题解决起来就不会耗费这么大的精力了。

不过我相信一句话,努力不会白费的,虽然耗费了很多时间,但学到的东西也更多,也有了更多的积累。

以下是我参考的的文章:感谢他们的经验分享

http://bbs.chinaunix.net/archiver/tid-1163613.html
http://blog.csdn.net/fengye515/archive/2009/02/14/3890894.aspx


0
2
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics