应该在昨天就写出这篇文章,偷懒了,直到现在才敲起键盘
这两天最主要的工作就是实现抓取文章,提取正文,以及存储到数据库这样一个过程。
关于抓取文章,提取正文,主要是应用了 beautifulsoup这样一个第三方的解析包来做。鼓捣了一阵还算顺利拿下来了一个网站的主页文章。
关于 beautifulsoup 的性能还没做测试,至少目前用不到,以后需要的再说。
遇到一个很头疼的问题就是关于中文编码的问题。关于中文编码的问题在过程中遇到了两个门槛。
1, 我把取到的中文放到了一个dict对象content里面面。然后就是做测试做了一个
content.items()
。输出的是编码,而不是汉字。当时就跟纳闷,一顿google,没有找到直接对这个问题做解释的,倒是对python的unicode编码问题了解了一些。但是如果直接
print content.values()[0]
的话还是能够正确输出中文。我的理解可能是因为直接使用
content.items()
的时候python并没有像使用的时候做编码的转化。所以直接输出的是编码字符。而且自此后我在python module的第一行都加上了# -*- coding: utf-8 -*-
2, 接着遇到的问题就是把中文存到mysql数据库的问题。导致有问题的是多方面的,我把整个过程写下来,希望对其他人有些许帮助
在往数据库写数据的时候python代码报错,显示latin1无法解析某某位置的码。我第一个反应是mysql数据库的编码问题。(在此插一句,我用的mysql是免安装版本的,在使用过程中遇到了各种问题,各种。。。建议初学者还是能选择mysql安装版。)
查看schema,果然是latin1的编码,遂更改了schema和各个table的编码到utf8
再试,一样的错误。。开始有点崩溃。又一顿google,得出了要更改MySQLdb源代码的建议。个人觉得这种方法有可能解决问题,但未必是从根本上来解决。除非是真没辙了才会考虑这种方案。
但我报错的代码和那个帖子位置不一样,我还是试着在那行代码hardcode了"utf-8"再试,代码不再报错,可以插入数据库。但中文都是乱码。再次崩溃
此时我想起在初始化dbconnection的时候没有设置charset值。遂又set为"utf-8",再试,再次报错。。。又一顿整,意识到应该改为"utf8",代码不再报错,另外我把hardcode的那行代码改回去,代码也不再报错,可以插入到数据库,不过中文依然是乱码。很崩溃。
这时我就开始怀疑这个免安装版本的mysql有问题。网上又下载了安装版的。一顿折腾,错误依旧。所以能改的地方都改了,就是乱码。开始绝望了。。
我开始仔细看table的导出的sql create statement,终于让我注意到了一个细节。
原来因为我最先的时候数据库编码默认为latin1,结果在建立表的时候,mysql自动为每一列也加上了charset latin1。也就是说虽然我更改了schema和table的编码到utf8但每一列的编码依旧是latin1。马上全部改为utf8。再试,终于能在table里看到熟悉的方块字了。。。
自此,中文编码的问题算是告了一个段落了。
后来想了想,如果一开始我就是用的mysql安装版的话,它会自动提示选择什么默认的编码,我当然会选择utf8,这样的话,中文编码的问题解决起来就不会耗费这么大的精力了。
不过我相信一句话,努力不会白费的,虽然耗费了很多时间,但学到的东西也更多,也有了更多的积累。
以下是我参考的的文章:感谢他们的经验分享
http://bbs.chinaunix.net/archiver/tid-1163613.html
http://blog.csdn.net/fengye515/archive/2009/02/14/3890894.aspx
分享到:
相关推荐
python web py入门- 实现论坛,开发技术:后端采用Python+web.py+MySQL,前端采用HTML+CSS+JavaScript+jQuery+RequireJS。
python pip install web.py可能会出问题,然后收到安装web.py,解压然后cmd下,python setup.py install
爬虫python入门 html+ python +django +爬虫 +pyecharts 实时疫情动态 请使用python3.6版本 安装requirements.txt依赖:pip install -r requirements.txt 生成迁移文件 python manage.py makemigrations 执行...
Nginx + uwsgi + web.py 搭建web服务器, 也包含一整套python服务器后台框架代码,简单方便,容易搭建。
Python3.7+Django2.1.5+Mysql5.7+Datatable2+Django_Filter+Redis, 这是在本人的《企业设备管理系统2.0》基础上增加了软件资产管理模块升级的版本,加强了资产变更日记,借用,归还,报废等各个环节的逻辑处理。...
2. 设置一个超级管理员 admin (admin@123456) > 参考 https://docs.djangoproject.com/en/4.0/howto/initial-data/ ```bash > python3 manage.py loaddata fixtures/* ``` ## 开始 1. 启动服务 ```bash > python3 ...
python_spiders_web -- 爬虫前台项目 运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue 2.6.11 + element-ui 2.13.1 + echarts + jquery 依赖包文件(可选) 见爬虫后台项目...
自己做的小留言本,使用webpy+mysql做的 纯属自己自娱自乐 没有加任何的数据过滤和身份验证 切勿用作除了play之外的用处
opencv_contrib_python_headless-4.5.3+dummy-py3-none-any
WebSSH 一个简单的Web应用程序可用作ssh客户端连接到您的ssh服务器。 它是用Python编写的,基于tornado和paramiko。
包含爬虫后台和前端,监控各个爬虫状态 ...python_spiders_web -- 爬虫前台项目 运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue 2.6.11 + element-ui 2.13.1 + echarts + jquery
该项目是基于python的web类库django开发的一套web网站,给同学做的课程作业。 本人的研究方向是一项关于搜索的研究项目。在该项目中,笔者开发了一个简单版的搜索网站,实现了对数据库数据的检索和更新。通过开发该...
基于Python+Flask框架开发的微信公众号和web应用-毕业设计源码+使用文档(高分优秀项目).zip基于Python+Flask框架开发的微信公众号和web应用-毕业设计源码+使用文档(高分优秀项目).zip基于Python+Flask框架开发的...
此Python+Django+VUE后台管理系统。包括的功能是用户管理----用户组管理的 增删该查功能。其中mysql数据库表的信息user_group.sql,也放到项目文件夹里了。
毕业设计-基于python+web的图片智能管理系统-图片分类 压缩包中包含源码文件,分类汇总,分类数据sql
估计这个安装包还只兼容python 2(python2 和python3差别还是挺大的,虽然现在python 3出来很久了,但是不少三方库还没有更新),因此需要自己找一个兼容的包:python_docx-0.8.6-py2.py3-none-any.whl。然后在...
web.py 是一个Python 的web 框架,它简单而且功能强大。web.py 是公开的,无论用于什么用途都是没有限制的。
python2.7.8 32位安装包及相关模块安装包,还有32位的PyScripter。 资源包含的文件如下: python-2.7.8.msi matplotlib-1.4.0.win32-py2.7.exe MySQL-python-1.2.4b4.win32-py2.7.exe numpy-1.8.1-win32-...
文科生初学 python + selenium + webdriver 自动化编程,写了一个 从EXCEL 表格读取 考号 易-查-分 批量查询转存 XLS 的代码。 环境: WIN10 64位 Python 3.10.5 selenium==4.3.0 xlrd==1.2.0 xlwt==1.3.0 文件列表...