`

海量日志数据,提取出某日访问百度次数最多的那个IP

 
阅读更多

  这道题目 的思路就是 :

    先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来

承受不了!然后再对结果排序。

 

   但是,这里有一个问题,怎么把大的文件分成小文件了?

   看网友们的博客的时候,大家都说,对IP地址hash 然后再取模  == Hash(IP) % 1000;

   然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,

   难道,就只有1000个IP地址!!!

   可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics