`

http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363

阅读更多
如果提示http://www.xxx.com/ skipped. Content of size 67099 was truncated to 59363
在nutch-site.xml中添加:
<property> 
  <name>parser.skip.truncated</name> 
  <value>false</value> 
</property>

这是因为网站的页面内容采用truncate的方式分段返回,而nutch的默认设置是不处理这种方式的,需要打开之。
分享到:
评论
1 楼 haha1903 2015-09-25  
有用,刚刚遇到这个问题

相关推荐

Global site tag (gtag.js) - Google Analytics