互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门） -

游牧民族

浏览: 7832 次

最近访客更多访客>>

cj19920801

PXY

爱和阿米

luxing44530

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 爬虫开发教程
浏览量：0

文章分类

社区版块

存档分类

互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

博客分类：

互联网金融爬虫怎么写

爬虫互联网金融数据雪球网股票

系列教程：

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）

上一节课我们一起通过一个p2p网贷爬虫，深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说，对于写简单爬虫来说，最最重要的，就是使用好XPath，以及这一课要讲的正则表达式。

正则表达式，又称正规表示法、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE）

正则表达式几乎出现在每一个编程语言中，有着极其广泛的应用，比如做网页的时候，判断用户输入的是否是邮箱这样的正则。正则表达式本身写法基本在各个语言中都是一致的，不过调用方法可能略有不同，在我们教的爬虫中，正则表达式主要应用在界定列表url和内容url的格式上，就是什么url是列表url，什么 url是内容url，什么url直接丢弃掉。这样做主要是为了提高整个爬虫的爬取效率，防止爬虫在无关的url花费太长的时间，当然如果希望全网爬的话，也可以不做设定。

对于手里有点闲钱的人来说，可能最常见的投资品就是股票了，虽然中国股票市场那叫一个变幻诡谲，妖兽频出。但依旧相对其他流通性差，投资门槛高的投资产品来说，有着国家信用背书的股市依然是不二的投资选择。股票的数据很多地方都有，我们今天就通过雪球的行情中心，爬一下当天各个上市公司的股票价格吧。

打开雪球行情中心：

哇，突然觉得这是我们教程最高大上的一次。首先，这个页面就可以作为一个不错的入口Url，因为有着挺多的连接，不过从效率来讲，虽然爬虫本身可以帮我们去做很多事情，但是最好还是直接找到列表url会更快一些。我们继续往里找，可以看到这样一个界面：

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=1

原谅我实在不懂股市，姑且就认为这个就是所有股票价格的列表，砖家勿喷~

好了，我们看下这个下一页规律

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=2

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=3

看着这种url的结构，发自内心想说：

好了，我们先根据这个连接来提取一下正则表达式，首先我们选中其中一个url，然后原封不动的写出来：

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=2

首先我们需要先把正则里面需要转义的字符进行转移，由于正则表达式中.代表任意字符,?代表指定字符出现0次或者1次，因此如果我们想匹配这两个字符本身的时候一定要记得将他们转义，当然正则中还有很多其他字符需要转移，不过这两个字符是url中最常见的，也是大家最容易弄错的地方。

经过转义之后的字符串是这样的：

https://xueqiu\\.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=2

可以看到，这个url里面并没有?只有一个点，因此我们将点进行转移，而之所以要有两个转义符\\，是因为这一段文字需要写进字符串中，而字符串本身是需要对\进行转义的。转义完成之后，就看一下不同url的共性，不同的url之间的共性是除了page后面的数字不一样，其他都是一样的，那没我们只需要对 page后面的数字改写成正则的形式，正则中提供了一些比较好用的替换符号，如\w代表数字和字母 \d代表数字，这两个是很常用的，另外也可以通过[0-5]这种形式来表示一个区间。这里我们其实就是一个1到多位的数字，因此将数字改写成\d+，同时注意转义符在字符串中要再次转义，得到下面的字符串:

https://xueqiu\\.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=\\d+

最后，一个经验性的东西值得注意，一般来说https的网站都会支持http，甚至有的连接会写成http，因此这里为了程序的健壮性，最好将这段正则修改一下兼容http的格式，修改的方式是我们允许s存在或者不存在，正则中提供了三个字符表示字符出现数量的区间，分别是?表示0或1次，+表示1或多次，*表示0或多次。这里很明显的，我们应该使用?:

https?://xueqiu\\.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=\\d+

注意这个问号是正则自己的问号，并不需要转义。

这样我们就把列表页的url的正则表达式写出来了。

同样的方法，我们写出内容页的正则表达式：

https?://xueqiu\\.com/S/SH\\d{6}

这里的{6}表示有6位，当位数确定或者范围确定时，可以使用花括号的形式来表示。再次申明，由于本身股票知识匮乏，暂且认为所有代码都是6位的。

写到这里感觉已经离大功告成不远了，然而，当我们测试就可以发现，所有页面的url实际上都是由js生成的，通过ajax请求来的。前功尽弃啊，不过还好咱们还学到了东西。不要灰心，黎明就在最黑暗的时间之后。我们下一课就给大家讲一讲碰到这些个ajax请求该怎么办。

对爬虫感兴趣的童鞋可以加企鹅群讨论：342953471。

0
顶

0
踩

分享到：

互联网金融爬虫怎么写－第三课雪球网股票 ... | 互联网金融爬虫怎么写－第一课 p2p网贷爬虫 ...

2016-05-23 18:23
浏览 779
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

互联网金融爬虫怎么写－第二课 雪球网股票爬虫（正则表达式入门）

评论

发表评论

相关推荐

互联网金融爬虫怎么写－第四课 雪球网股票爬虫（单页面多数据）

互联网金融爬虫怎么写－第三课 雪球网股票爬虫（ajax分析）

互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）

最近访客更多访客>>

互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）

互联网金融爬虫怎么写－第三课雪球网股票爬虫（ajax分析）