这道题目 的思路就是 :
先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来
承受不了!然后再对结果排序。
但是,这里有一个问题,怎么把大的文件分成小文件了?
看网友们的博客的时候,大家都说,对IP地址hash 然后再取模 == Hash(IP) % 1000;
然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,
难道,就只有1000个IP地址!!!
可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的
相关推荐
NULL 博文链接:https://yueyemaitian.iteye.com/blog/1180299
1. 给定a、b两个文件,各存放50亿个url,每个url...4. 海量日志数据,提取出某日访问百度次数最多的那个IP。(利用hash分而治之,然后上归并,堆) 5. 在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。
1.提取出某日访问百度次数最多的那个IP 2.有一个1G大小的一个文件,里面每一行是一个词 3.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 4.在2.5亿个整数中找出...
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash...
4、海量日志数据,提取出某日访问百度次数最多的那个IP。 方案1:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。大数据面试题(2)全文共26页,当前为第3页。大数据面试题(2)全文共26页...
公元1年1月1日为星期一给定字符串,找出出现次数最多的字符,并且计算次数。给定字符串,找出出现次数最多的字符,并且计算次数。编程:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的...
计算某年、某月、某日和某年、某月、某日之间的天数间隔。要求年、月、日通过main方法的参数传递到程序中。
摩拜共享单车数据分析项目的数据、代码、图表,基于上海摩拜单车的2016年8月份随机抽样大约10万条的开放订单数据进行分析
输入公历的某年某月某日,相应的计算出这一天是星期几。
不通过判断闰年的方法计算距离未来某天或者距离某纪念日过去多少天
本程序是用C语言编写的,主要是为了查询某年某月某日是星期几而设计的,该程序经过本人测试,运行成功!
访问SOHU 163主页变为2008年某日主页面故障分析报告--最终版
c++ vs2008 计算某日为星期几 swictch case 语句 跟 getweek()
由用户输入一个日期,年月日形式,计算输入的某年某月某日是该年的第几天
1.支持定时清理SQL日志。 2.支持每月的某日清理、支持每周或者每天的某个时间清理。
PLC判断距某年某月某日天数
计算某年某月某日是星期几
实现一种ARGB数据(二进制数据)的无损压缩/解压单元,用于GPU或其它存储器图形图像访问密集的系统中,利用无损数据压缩技术降低存储器带宽,提高访问效率。总体要求: 研究一种高效的ARGB数据压缩/解压算法; ...
假 设我的数据量没有300PB, 只有15TB, 某人只有 100个朋友, 那么我需要多长时间查询出结果? 首先, 做一个线性扫描, 扫描一次需要20分钟, 其次, 做嵌套循环需要2000分钟, 总共是33小 时, 约1.4天。 这个...