`
zuroc
  • 浏览: 1293617 次
  • 性别: Icon_minigender_1
  • 来自: 江苏
社区版块
存档分类
最新评论

pylons建站日记0_前传,一个抓csdn的脚本

阅读更多
数组从0开始,数数从1开始,为了0与1的和谐,我补上一篇可有可无的前传,以满足喜欢0客户的需求,至于喜欢1的客户,可以pass该文章.

由于宿舍上网昂贵,加上csdn广告奇多,看着不爽.
另外自己有个200元的2手pda,哈哈:)
于是随手写了这个脚本,代码有些凌乱,大家不看也罢.

功能为
可以从csdn抓取新闻,并以纯文本和html两种格式分别保存,对于html格式,同时会抓取其中的图片.

没有多线程,没有异步I/O,没有索引生成,没有更新判断.........:)
不过自己用用,把文本抓到pda上看看还是不错的.


分享到:
评论
7 楼 guotie 2008-01-12  
不错,我的几个网站也可以自动去取点数据。

每天人工更新,累啊
6 楼 bat0906 2008-01-12  
我现在也正在看那部分呢!
我郁闷是javascript中的对象怎末传递到script里面,
平常用put,get之类传一些简单的对象,稍复杂点的对象就挂了,
类似于这种
/*******************************************************************/
function dwScript(o){
  o.id = o.id || "";
  o.charset = o.charset || "utf-8";
  if (o.script && o.script != ""){
    document.write("<script id='" + o.id + "'>" + o.script + "<\/script>");
  } else if (o.url && o.url != ""){
    document.write("<script id='" + o.id + "' src='" + o.url + "' charset='" + o.charset + "'><\/script>");
  } else throw new Error("no script content or url specified");
}
/***************************************************************/
这段时间郁闷坏了!
5 楼 stworthy 2008-01-12  
RUBY的Watir可以帮忙。
4 楼 zuroc 2008-01-11  
这个比较麻烦
我记得有一款java的javascript引擎
还有一款就是firefox的
可以拿来试试
3 楼 bat0906 2008-01-11  
请问一下,兄弟有没有,抓取过用javascript实现的分页显示的那部分啊,
就是抓取脚本啊,
(我的描述能力很烂啊!见笑了!)
2 楼 zuroc 2008-01-02  
正在写一个抓新闻的网站,规划中:)
1 楼 glamey 2008-01-02  
其实抓新闻很简单的。关键就是监控抓取新闻的模板什么时候变化了,下次抓的时候能从这个地方继续抓取。

相关推荐

Global site tag (gtag.js) - Google Analytics