`
囧囧有神
  • 浏览: 204533 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

tf-idf的问题

阅读更多

传统的tf-idf计算需要有4个MR完成,其中计算逆向文档频率时候对于文档数在百万级别以下的,中间数据可以直接放内存的hashmap,但是文档数千万或上亿,可能会导致内存溢出,这时候计算方式要不同,把|d|的数量单独输出,增加一个步骤把|d|和之前的数据做join。

0
3
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics