`
xyheritrix
  • 浏览: 3395 次
最近访客 更多访客>>
社区版块
存档分类
最新评论
文章列表
1.  通过硬件 设备管理卸载所以vmware虚拟机网络驱动 2.  菜单:编辑-》编辑虚拟网络-》恢复默认 3.  设置ubuntu虚拟机网络为自定义vmnet0 4.  启动虚拟机,编辑网络配置如下   网卡设置 http://jordy.easymorse.com/?p=158   jdk安装 http://jiessiedyh.javaeye.com/blog/430565 这一篇是关于如何手动安装jdk的blog。     ubuntu server 设置静态IP: 1.设置Address、netmask、getway sudo gedit  /etc ...
Heritrix+ Lucene + WARC 爬虫增量采集与回放之整合 heritrix 增量 技术 文档参考如有需要,可以和本人联系。 QQ:382500398。 针对Heritrix源码1.14版本进行解读和研究,本人把Herirtrix和lucene 3进行了整合改造,形成完整的myeclipse工程,本整合后的工程完成了采集后完整的网站回放的实现。在研读的过程中,主要做了如下工作: 1. 根据配置文件设定的时间每天自动启动爬虫,并且以增量模式运行爬虫,增量处理的核心类:Incremenal, 增量判断:Incremenal.getRecentModifed。增量处理采用浏览器模式预处理 ...
Global site tag (gtag.js) - Google Analytics