python的一些记录

bosshida

浏览: 214402 次
性别:
来自: 广州

最近访客更多访客>>

PowerNTT

cigogo

TangoHuang

屌丝码农

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

编程

正则表达式的一些常用元字符和语法： http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表达式匹配html问题，经常会出现正则写对了，但匹配就是不成功，用notepad++查看html代码。

原因是：查看的html代码中，各html标签间可能有换行符，tab符等不可见字符，所以要在各html间增加【\s*】来匹配，同时python的使用中也要打开re.S 来 dot match all（包括换行）

for each in re.findall(person,page,re.S):
	print each

对于utf-8编码的网页，用urllib2下载网页时，正确处理中文的方法是：decode('utf-8)

page = urllib2.urlopen(url).read().decode('utf-8')

中文写到文件的方法：（在windows下，文件默认是ansii编码）

file = open(r'e:\\Chow\\result.txt','w')
...
print >>file,each.encode('gbk'),'\n'

或者用codecs模块，以utf-8打开文件：

file = codecs.open(r'e:\\Chow\\result.txt','w','utf-8')
...
print >>file,each,'\n'

1.写文件中文问题

在windows写中文txt文件时，遇到问题：

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 0: ordinal
not in range(128)

解决：

import codecs

file = codecs.open('filepath', 'w', 'utf-8')
str = '中文输入'
file.write(str.decode('gbk'))
fiile.close()

或者：

在python的安装目录下的Lib目录，找到site.py,修改def setencoding()方法
def setencoding():
   .....
   ....
    if 0:
        # Enable to support locale aware default string encodings.

把那个if 0改为if 1:

.py文件的第一行加入：

#-*- encoding:UTF-8 -*-

分享到：

Python下载网易公开课脚本 | python学习

2013-05-03 13:53
浏览 1142
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python的一些记录

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python的一些记录

评论

发表评论

相关推荐

w3school html 学习笔记

phpcms 笔记

dive into python 笔记

python 爬某高校C++题库小程序

centos下饭强--obfucated-openssh sshcenter.info

android的【qq通讯录】导出短信，在iphone上恢复

《程序设计导引及在线实践》学习

accelerated c++ 学习笔记

关于foreach与普通for的区别

学习Linux命令，读《系统程序员成长计划》

base64，日期操作，jexl读取excel

无题。。好代码记录

数据结构：排序

c语言复习笔记

并发学习笔记（更新中，java编程思想第四版21章）

并发学习笔记（更新中，java编程思想第四版21章）

RMI 入门

《大话设计模式》一书的所有代码和UML类图

windows系统下的进程监测程序--实现过程记录

发短信算法题

最近访客更多访客>>