`
wangwei3
  • 浏览: 118455 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

继续抓取的一些问题及解决方案

阅读更多
采用哪个继续抓取会遇到一些小问题,
1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接!
2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了!
3.如何启动heritrix的UI

第一个问题只要改一下order.xml
下面几个值这样设置

<string name="recover-path"></string> recover.gz的绝对路径


  <boolean name="checkpoint-copy-bdbje-logs">true</boolean>
    <boolean name="recover-retain-failures">false</boolean>
    <boolean name="recover-scope-includes">true</boolean>
    <boolean name="recover-scope-enqueues">true</boolean>

第二个问题的解决方案就是 Extractor或者Scheduler 写入你要重新抓取的正则,让后调用CandidateURI.setIsSeed(true)这种url抓取过,还会继续抓取

第三个问题没解决,
分享到:
评论
1 楼 zzzz3621 2011-12-17  
关于第二个问题,你这么写,就是把那个URL当成种子对吧?那么这个种子里解析出来的URL,到了BDBfrontier的话,不是会被过滤掉,因为原先那些解析出来的URL应该已经被抓取过了的吧?

相关推荐

    yoink, 用于 What.CD的Freeleech种子抓取器.zip

    yoink, 用于 What.CD的Freeleech种子抓取器 请注意,由于对 What.CD API的限制,这个项目的开发已经停止。 直到我被人员明确地通知这些限制,开发... 请不要为解决方案创建拉请求。,一个用于 What.CD的Freeleech Torr

    thinkful-react-transform-solution:Thinkful的React Transform项目(一个随机的GIF抓取器)的解决方案

    ) 使用和一些自定义转换构建。 使用React Hot Loader。演示版 git clone ...

    网络爬虫的设计和实现

    广度优先:是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此页面中链接的所有页面。这是最常用的方式,广度优先的搜索策略可以并行处理,提高抓取速度。 深度优先:是指...

    课件录制工具

    教材制作完整解决方案:提供抓取、剪辑、特效、素材整合、即时录制、后制、屏幕抓取、问卷设计、支持各项格式、发布等强大功能,一次搞定教材制作,不须再购买其他辅助软件!为企业简省大幅人力及成本! 第一时间...

    毕业设计电商网站源码-aws-deployment-with-fortiweb-waf:FortinetFortiwebWAFForAWS解决

    解决方案对试图对您的 Web 应用服务器的请求提供保护。下图表示您可以使用该解决方案实施指南和随附的 AWS CloudFormation 模板构建的架构。与在传统环境中部署 WAF 不同,在云上部署WAF建议公有网和私有子网分离。...

    网络爬虫调研报告.doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(1).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中。 Larbin 开发语言...

    网络爬虫调研报告(2).doc

    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的 分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而 且很容易集成到自己的应用之中. Larbin 开发语言:...

    level1~2题库-考试通.xlsx

    尽管出现了专用的KYC解决方案,但如果你的公司不喜欢使用一种解决方案,则可以使用RPA机器人来自动执行KYC流程的某些部分。对于需要人工干预的边缘案例,可以将案例转发给员工。 40-贷款处理 与大多数文档处理...

    C++网络爬虫项目

    建接收线程,后者负责抓取页面内容,而前者继续于多路输入输出循环中等待 其它套接字上的I/O事件。 3.2. 解析事件流 独立的域名解析线程实时监视原始统一资源定位符队列的变化,并将其中的每 一条新近加入的原始统一...

    ImGrab-crx插件

    ImGrab有一个解决方案。 在活动选项卡中查看图像时,只需单击图标,ImGrab会将它们全部缓冲到弹出窗口中。 现在,您可以从此处单击以立即下载图像,或选择“窗口视图”以在新窗口中浏览。 一次不再下载一个JPEG的...

    PIC CMS图片网站管理系统 v1.2.ZIP

    PICCMS开发团队旨在延续PICCMS系统的精髓,在原有PICCMS基础上继续开发专业的图片网站管理系统,为追随者和支持者提供最好的图片类网站解决方案。 有品味的PHP开发团队 PICCMS开发团队是一代真正有品味、有观点、...

    leetcode分类-codestack:我所有存储库的鸟瞰图-在这里您将找到我所有的数据科学工作,我已将其放入以便快速浏览。访问个人回购进行

    和预测分析解决方案的大型数据集。 我的强项包括客户分析、电子商务分析、营销分析、财务分析和商业智能。 凭借 2 年以上的分析工作经验,以及我在普渡大学期间获得和磨练的技能,我正在组织中寻找数据驱动的角色,...

    兰大计算机安全技术离线作业答案.docx

    二、银行卡信息安全事件解决方案 (1)加强加密 联网泄密是目前银行卡信息泄露的主要方式,因为计算机网络具有开放性的特点,所以对于防范联网泄密的方式可以通过加密设置。 第一,为计算机设置识别口令,用户只有...

    无线路由破解软件

     2、本文力求以傻瓜式、菜鸟式的方法解决问题,适合像我一样不懂的菜鸟。  下面开始我们的解密之旅:  一、准备篇  1、一个有可破解无线信号的环境。如我在家随便搜索出来的信号。 2、带无线网卡...

    双嘉邮件地址搜索联盟 5.1.0.1.rar

    17、邮箱的提取方法独一无二,只要网页中有邮箱地址,系统都会准确抓取,包括任何公布方式; 18、软件自动提示最新版本,提示用户做相应升级; 19、对搜索过的网页进行智能过滤,提高网速的有效利用和搜索效率。 ...

    仿世纪佳缘婚介交友系统5.3 ASP+SQL

    、远程抓取即为会员相册可以通过其它网站上的图片地址,系统会抓取该图片并保存到空间中!  (9)验证码设置: 如果选择关闭,那么模板中所有相关的验证码表单都要手工去掉保存提交。  (10)服务升级设置:...

    无线网络密码破解软件

    2、本文力求以傻瓜式、菜鸟式的方法解决问题,适合像我一样不懂的菜鸟。 下面开始我们的解密之旅: 一、准备篇 1、一个有可破解无线信号的环境。如我在家随便搜索出来的信号。 2、带无线网卡的电脑一台(笔记本...

    javaSE代码实例

    11.1.4 try、catch及finally语句块之间需要注意的问题 201 11.2 异常的层次结构 203 11.2.1 捕获异常 203 11.2.2 未捕获异常 205 11.3 再次抛出异常 206 11.3.1 什么是异常的再抛出 206 11.3.2 显性再...

Global site tag (gtag.js) - Google Analytics