我的java数据抓取经验 -

baeiou

浏览: 4231 次
性别:
来自: 广州

最近访客更多访客>>

u014083580

421728862

zxpfss

superpope

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

我的java数据抓取经验

Java 正则表达式浏览器交通编程

本人担任职友集的java工程师五年，其中抓取数据占主要的一部分，抓取的信息只要有两部分，职位和简历，其中职位的抓取量为日均插入量为30万，更新量为60万，抓取全国300多个人才网站。职友集（现在改名为跳哪网）现在是全国职位量最高的垂直搜索引擎。月均广告收入约20万左右。当然这是经过我们团队的努力。
    我们在职位抓取方面是下了很大的一番功夫，使我们的职位量无法被人超越，首先现在很多人才网站为人防止其它网站抓取它的信息，都在封IP,尤其是中华英才网，我们为了向我们的用户提供大而全的职位信息，时刻作出我们的努力。我们为了解决封IP的问题，我取采取了多代理的方式。充分而均衡的运用多IP,有效的解决了封IP的问题。除了封IP的问题外，有一些网站为了防止其它人抓取他的企业联系信息，把企业的联系信息如电话号码，邮箱等放在图片中，我们为了我们的用户，可谓是呕心沥血地解决问题。我们经过我们的长期研究，可以有效地读取图片中的文字信息。为我们的访客提供良好的信息体验。
    我们的抓取在提取网站信息方面是用正则表达式，而不是用其它的，这样是有我们的理由的，因为如果有带有浏览器性质的插件，这样会为整个抓取带来很多风险。
   首先，在解析脚本方面会存在不稳定因素，可能会令整个程序运行得很慢，很耗CPU资源。可能会因为某个脚本的运行不当而令整台服务器down机。而且用浏览器式插件。速度很慢，不能满足日常的抓取需求。所以我们放弃了用浏览器式插件。而改用javahttpURLConnection来抓取网页的html源代码，用正则表达式提取网页的特定内容。然而正则表达式用起来虽然很方更，但也存在一个比较重要的问题，如果一不小心有一条正则表达式写错了，会相当耗CPU资源，CPU的占用率会突然提升起来。而且会一直居高不下。我们为了能解决之个问题，我们修改了java.util.regex.Pattern类，一但正则表达式长期占用CPU资源高居不下，程序自动终止正则的匹配，并记录错误。方便查看那一条正则写错了。在抓取时有可能会遇到需要登录才能获取页面的情况。而且有时登录时需要输入验证码等情况，我在抓取方面，对ocr都有很深入的研究，大部分不太复习的验证码都可以通过编程方法破解。实现自动登录时通过提交通过提交通数，然后获得cookie,然后再通过这个cookie获得那些登录后才能看到的页面。

分享到：

mongodb for hadoop

2010-12-15 23:51
浏览 1513
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

我的java数据抓取经验

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

我的java数据抓取经验

评论

发表评论

相关推荐

最近访客更多访客>>