大数据排序或取重或去重相关问题解决方案 - 乐在其中/Leo在其中 - ITeye博客

`

leowzy

浏览: 898379 次
性别:
来自: 北京

最近访客更多访客>>

pzzy2000

alwarse

shengshihouzhe

syyalxd

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

一键注册：
request.getRequestURL()和request.getRequestURI()
SuperCustomer： ...
SED的暂存空间和模式空间
juyo_ch：讲得挺好理解的,学习了
java 死锁及解决
chinaalex：最后一题答案正确，但是分析有误.按照如下过程，上一行为瓶，下一 ...
zz智力题
liaowuxukong：多谢博主啦，弱弱的了解了一点。
C++/Java 实现多态的方法（C++）

大数据排序或取重或去重相关问题解决方案

博客分类：

Algorithm

阅读更多

Q：TC群里有人发消息说在10亿个数据中找出所有的重复数，内存限制10M。貌似百度面试题。

“笨一休”大牛的初步提出了个方法：

1，利用hash对所有数进行取模（比如%1M），利用余数进行分1K组；

2，再对1K组，内部进行hash查重复数。

晚上上自习时候想了想，觉得不需要设计hash函数来进行操作，一来很难设计出无冲突的hash函数，二来每次进行hash时候涉及取模操作，比较费时。想了个方法如下：

1，将10亿=10^9个数划分为N（N=1K或500）个区间段，即使用N个文件存储。每个文件代表一个区间（1《x《1M放在f1中，1M<x《2M放在f2中之类......自己设定）。

2，扫描所有数，通过比较将数划分到N个区间中；（可以采取判定树方式比较）

3，分别对N个文件，进行操作（取去重或排序之类），（此时可以对每个文件中的数据，进行内存操作。数组便可完成。因为数据随机，平均每个文件的数据个数为2M/1M个，2M/1M*4=8M/4M <10M；这里也可以用bit操作更省内存）。

分享到：

Maven生命周期详解 | 分配排序（桶排序..）

2010-10-21 16:13
浏览 2753
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

智慧工业大数据解决方案智慧工厂大数据解决方案智能制造大数据解决方案.pptx: 智慧工业大数据解决方案智慧工厂大数据解决方案智能制造大数据解决方案

矿级大数据建设解决方案29.9.pdf: 矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案矿级大数据建设解决方案...

2022年大数据治理大数据平台解决方案PPT合集（26份）.zip: 2022年大数据治理大数据平台解决方案PPT合集（26份）包含如下文档：交通大数据平台概述.pptx 全域旅游云计算大数据平台总体规划设计方案.pptx 城市大数据中心建设方案.pptx 城市数据大脑方案汇报.pptx 大数据分析...

大数据时代存储解决方案: 大数据时代存储解决方案

Python用pandas进行大数据Excel两文件比对去重上百万大数据处理: 通俗理解有两个excel文件分别为A和B 我要从B中去掉A中含有的数据，数据量大约在300w左右因为数据量较大，无论是wps还是office自带的去重都无法正常使用这样就需要用到脚本了

19.9大数据+智慧医疗-解决方案19.9.pptx: 大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+智慧医疗-解决方案大数据+...

智慧物流大数据建设解决方案-物流园区大数据建设解决方案: 智慧物流大数据建设解决方案--物流园区大数据建设解决方案智慧物流大数据建设解决方案--物流园区大数据建设解决方案智慧物流大数据建设解决方案--物流园区大数据建设解决方案智慧物流大数据建设解决方案--物流园区...

旅游大数据解决方案: 旅游大数据解决方案-旅游大数据解决方案-旅游大数据解决方案

智慧水厂大数据可视化云平台整体解决方案水务公司大数据可视化云平台整体解决方案.pptx: 智慧水厂大数据可视化云平台整体解决方案水务公司大数据可视化云平台整体解决方案

oracle大数据解决方案: oracle 电信大数据解决方案，介绍了大数据平台架构，功能...

商业综合体大数据云平台建设和运营整体解决方案商业综合体信息化管理平台建设方案.pdf: 商业综合体大数据云平台建设和运营整体解决方案商业综合体信息化管理平台建设方案.pdf商业综合体大数据云平台建设和运营整体解决方案商业综合体信息化管理平台建设方案.pdf商业综合体大数据云平台建设和运营整体...

2019年大数据优秀产品和应用解决方案案例.doc.pdf: 2019年大数据优秀产品和应用解决方案案例.doc.pdf2019年大数据优秀产品和应用解决方案案例.doc.pdf2019年大数据优秀产品和应用解决方案案例.doc.pdf2019年大数据优秀产品和应用解决方案案例.doc.pdf2019年大数据优秀...

大数据应用解决方案: 大数据应用解决方案

大数据平台建设技术解决方案.docx: 大数据平台建设技术解决方案

智慧社保大数据综合分析平台整体解决方案-智慧人社大数据综合分析平台整体解决方案.pptx: 智慧社保大数据综合分析平台整体解决方案

大数据营销综合解决方案智慧营销大数据综合解决方案.pptx: 大数据营销综合解决方案智慧营销大数据综合解决方案

12份大数据平台数据治理整体解决方案大数据分析平台数据治理建设方案合集.zip: 39页大数据治理运营整体解决方案.pptx 41页大数据治理平台建设与应用解决方案.pptx 46页华为数据治理解决方案主打胶片.pptx 大数据平台数据治理与建设方案.pptx 大数据治理管理平台解决方案.pptx 大数据治理平台...

烟草行业大数据解决方案: 烟草行业大数据解决方案

高校大数据整体解决方案（智慧校园高校大数据解决方案）.doc: 高校大数据整体解决方案（智慧校园高校大数据解决方案）

智慧消防大数据一体化解决方案智慧消防整体解决方案互联网+消防物联网一体化解决方案.pdf: 智慧消防大数据一体化解决方案智慧消防整体解决方案互联网+消防物联网一体化解决方案.pdf

Global site tag (gtag.js) - Google Analytics