最近写了个Python爬虫，记录一下学到的东西

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Windows

浏览 8142 次

锁定老帖子主题：最近写了个Python爬虫，记录一下学到的东西精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
小白·菜等级: 性别: 文章: 50 积分: 160 来自: 长沙	发表时间：2010-02-22 最后修改：2010-02-23 相关推荐: Python实现多线程爬虫 python爬虫入门教程(二)：开始一个简单的爬虫 python爬虫的学习总结我的第一个Python爬虫——谈心得从零开始开始学习python爬虫记录更多相关推荐 Python urllib2 是针对文本的 urllib 是针对二进制文件的下载文件最简单的写法 urllib.urlretrieve(url, filePath + fileName) 如果需要访问非英文页面文字，自行 decode html.decode('euc-jp').encode('utf-8') 使用 BeautifulSoup 处理 html 非常方便，但是在 Jython 下速度超级慢！可以直接使用正则在 BeautifulSoup 中查找需要的标签 links = soup.findAll('a', href=re.compile('^.+?$') try except else 的应用强制抛出异常 raise 使用格式化文本实现数字补零 fileName = '%03d.jpg' %(time) 新建文件夹 if not os.path.isdir(filePath): os.mkdir(filePath) 字符串和数字无法相加需要讲数字转化为字符串 str(num) cmp 可以用来比较两个字符串，完全相同返回 0 # -- coding: utf-8 -- 非常重要，不光影响代码中的注释，还会影响到处理文本。起初忘记加这个，导致日文无法正常处理。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

lsc20051426 等级: 初级会员性别: 文章: 26 积分: 30 来自: 北京	发表时间：2010-02-24 LZ,不用使用代理么？应该把设置代理的部分也加上
返回顶楼	回帖地址 0 0 请登录后投票

小白·菜等级: 性别: 文章: 50 积分: 160 来自: 长沙	发表时间：2010-02-26 慢慢来，现在还只是针对两三个网站抓取特定资源。慢慢扩展。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: