论坛首页 入门技术论坛

用HttpClient抓取人人网高校数据库(省,高校,院系三级级联)--更新1

浏览 36798 次
该帖已经被评为新手帖
作者 正文
   发表时间:2010-11-28  
elan1986 写道
比较不错,最看重的是httpclient版本的使用
网上现在很多都是3.x的
很少有4.x的

httpclient + httpparser 能构成一个比较简单的抓取、分析数据。

LZ可以看看 :)


好的,谢谢,那个应该是htmlparser吧,很早就听过了。只不过这个是因为我们今天就需要把数据给弄出来,所以就没考虑很多,而且刚刚看了一下。那个正则写的还很一般般的。有时间在改进。
0 请登录后投票
   发表时间:2010-11-28  
tcptrace工具直接能用的吧。
0 请登录后投票
   发表时间:2010-11-28  
hehuabing 写道
tcptrace工具直接能用的吧。


不管白猫黑猫,抓到老鼠的猫就是好猫啦。
  • 大小: 7.6 KB
0 请登录后投票
   发表时间:2010-11-28  
楼主很牛,完全一样重膜拜的心态看完的,好神奇呀。

敢问楼主几年才能达到这样的功力。

说来很羞愧,小弟现在已经小硕了,可这些东西都看不懂,以前还没听说过,哎
0 请登录后投票
   发表时间:2010-11-28  
这个,只要多多练习就可以了。没事多看看别人的代码学习呀。
0 请登录后投票
   发表时间:2010-11-28  
zhzhl202 写道
楼主很牛,完全一样重膜拜的心态看完的,好神奇呀。

敢问楼主几年才能达到这样的功力。

说来很羞愧,小弟现在已经小硕了,可这些东西都看不懂,以前还没听说过,哎



这个,只要多多练习就可以了。没事多看看别人的代码学习呀。
0 请登录后投票
   发表时间:2010-11-29  
唉···一个数据抓取,搞这么多事情出来。何必呢。直接注册一个帐号,然后手动上去填写好院校信息,然后写一个登录的程序,写一个抓取的程序,OK了。
json解析也不需要正则。
天天用firebug,而且基本上看看html代码就ok了,没看到用抓包工具有什么用。
0 请登录后投票
   发表时间:2010-11-29  
问个很初级的问题,如果大量使用 HttpClient client = new DefaultHttpClient(); 这种方式性能上有没有问题 ?
0 请登录后投票
   发表时间:2010-11-29  
我一直想做的事被你搞定了,哈哈
0 请登录后投票
   发表时间:2010-11-29  
faiinlove 写道
唉···一个数据抓取,搞这么多事情出来。何必呢。直接注册一个帐号,然后手动上去填写好院校信息,然后写一个登录的程序,写一个抓取的程序,OK了。
json解析也不需要正则。
天天用firebug,而且基本上看看html代码就ok了,没看到用抓包工具有什么用。



您说的是。我对正则的比较熟悉,json还不熟悉。如果你有好的json解决方案,那大家一起探讨一下吧。也许会下一个更新里面用json解析吧。
至于您说的抓取程序,已经写出一个粗糙的。
至于抓包工具,随意啦。下次我用firebug.
“搞这么多事情出来”只是为了将自己学到的东西综合一下,主要还是练练手,综合运用。
总之谢谢您的关注
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics