海量日志数据，提取出某日访问百度次数最多的那个IP - 痛苦只是暂时的 - ITeye博客

`

kainever7

浏览: 41987 次
性别:

最近访客更多访客>>

fxstiandi

tfani

stephenhs

AcFun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

海量日志数据，提取出某日访问百度次数最多的那个IP

博客分类：

找工作

阅读更多

这道题目的思路就是：

先把大的文件分成小的文件，然后在逐个的在小文件中统计，这样就避免了一次性把所有的记录加载进来

承受不了！然后再对结果排序。

但是，这里有一个问题，怎么把大的文件分成小文件了？

看网友们的博客的时候，大家都说，对IP地址hash 然后再取模 == Hash(IP) % 1000;

然后，所有相同的IP地址就会映射到一个文件了，当时，脑袋就没转过弯来了，就在纳闷了，

难道，就只有1000个IP地址！！！

可是，他有没有说，小文件中IP地址都是相同的....... 不同的IP地址取模相同的话，也会放在一个文件中的

分享到：

ObjectInputStream and ObjectOutputStream | 分布式系统初探

2015-03-21 15:05
浏览 359
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

提取出某日访问网站次数最多的那K个IP: NULL 博文链接：https://yueyemaitian.iteye.com/blog/1180299

c语言如何对海量数据进行处理: 1. 给定a、b两个文件，各存放50亿个url，每个url...4. 海量日志数据，提取出某日访问百度次数最多的那个IP。（利用hash分而治之，然后上归并，堆） 5. 在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。

面试大数据算法解析: 1.提取出某日访问百度次数最多的那个IP 2.有一个1G大小的一个文件，里面每一行是一个词 3.给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 4.在2.5亿个整数中找出...

大数据常见算法题.txt: 第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash...

大数据面试题(2).docx: 4、海量日志数据，提取出某日访问百度次数最多的那个IP。方案1：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。大数据面试题(2)全文共26页，当前为第3页。大数据面试题(2)全文共26页...

java 面试题经典收藏: 公元1年1月1日为星期一给定字符串，找出出现次数最多的字符，并且计算次数。给定字符串，找出出现次数最多的字符，并且计算次数。编程：编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的...

JAVA计算某年、某月、某日和某年、某月、某日之间的天数间隔。: 计算某年、某月、某日和某年、某月、某日之间的天数间隔。要求年、月、日通过main方法的参数传递到程序中。

摩拜共享单车数据分析项目数据、代码、图表: 摩拜共享单车数据分析项目的数据、代码、图表，基于上海摩拜单车的2016年8月份随机抽样大约10万条的开放订单数据进行分析

输入公历的某年某月某日，相应的计算出这一天是星期几。: 输入公历的某年某月某日，相应的计算出这一天是星期几。

vc 从某年某月某日到某年某月某日有多少天: 不通过判断闰年的方法计算距离未来某天或者距离某纪念日过去多少天

查询某年某月某日是星期几: 本程序是用C语言编写的，主要是为了查询某年某月某日是星期几而设计的，该程序经过本人测试，运行成功！

访问SOHU 163主页变为2008年某日主页面故障分析报告--最终版: 访问SOHU 163主页变为2008年某日主页面故障分析报告--最终版

计算某日为星期几: c++ vs2008 计算某日为星期几 swictch case 语句跟 getweek()

计算输入的某年某月某日是该年的第几天: 由用户输入一个日期，年月日形式，计算输入的某年某月某日是该年的第几天

SQL Server日志清理小助手(可自动定期清理): 1.支持定时清理SQL日志。 2.支持每月的某日清理、支持每周或者每天的某个时间清理。

PLC判断距某年某月某日天数: PLC判断距某年某月某日天数

计算某年某月某日是星期几: 计算某年某月某日是星期几

基于哈弗曼编码的一种ARGB数据无损压缩/解压缩单元（方法）的C语言实现压缩块格式说明: 实现一种ARGB数据（二进制数据）的无损压缩/解压单元，用于GPU或其它存储器图形图像访问密集的系统中，利用无损数据压缩技术降低存储器带宽，提高访问效率。总体要求：研究一种高效的ARGB数据压缩/解压算法； ...

从大数据到小数据.pdf: 假设我的数据量没有300PB，只有15TB，某人只有 100个朋友，那么我需要多长时间查询出结果？首先，做一个线性扫描，扫描一次需要20分钟，其次，做嵌套循环需要2000分钟，总共是33小时，约1.4天。这个...

Global site tag (gtag.js) - Google Analytics