海量数据处理中的hash单调问题 - 苏格兰的紫杉木 - ITeye博客

`

paramore

浏览: 52115 次
性别:
来自: 西安

最近访客更多访客>>

qs9816

jerry051635

大福me

sundm

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

海量数据处理中的hash单调问题

博客分类：

interview baby

阅读更多

参加百度的面试，面试官提了一个海量数据问题，貌似自己的回答没能让人家满意，纠结点是：

大规模数据一般先用hash来分为小的数据段，然后在内存里处理之，然而如果hash后hash值还是各不相同（及其变态的情况），怎么办？

回来思考了下，下面是自己的想法，大家说说看：

如果一遍hash后，数据还是十分单调，可以采用另一个hash函数，或者不是单纯按照hash值分类，而是按照hash后的值范围，例如，原来hash(query)%100, 现在可以1-10为一个文件，间隔10建立子数据集，应该能解决问题吧？

轻拍。。。

分享到：

网络传输或写磁盘struct问题 | 设计数据访问策略

2012-03-21 19:58
浏览 820
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

海量数据处理方法: 海量数据处理的面试题中，通常会出现以下几个方面的问题： 1. 海量数据处理的定义和特点 2. 海量数据处理的方法和策略 3. set/map/multiset/multimap 等数据结构的应用 4. 海量数据处理中的分布式处理和并行计算 5....

海量数据处理策略.pdf: 接着，文章介绍了海量数据处理策略，包括基于散列（Hash）的分布存储方式和迁移方式扩容两种方法。基于散列的分布存储方式是通过对Key进行散列算法，将不同的用户数据分散在不同的数据库节点上，以实现高效的数据...

十道海量数据处理面试题: 对于极大规模的数据集，单机处理能力可能完全无法满足需求，这时可以将数据分布到多台机器上，采用类似于MapReduce的分布式计算框架来并行处理数据，再将结果合并。这种方式不仅能够充分利用计算资源，还能大幅缩短...

海量数据处理：十道面试题与十个海量数据处理方法总结: - 利用多台计算机并行处理数据。 - MapReduce是一种常用的分布式处理框架。通过以上解析可以看出，面对海量数据处理的问题，合理利用各种数据结构和算法是非常重要的。不同的应用场景需要选择合适的技术手段来...

海量数据处理: ### 海量数据处理关键技术解析 #### 一、海量数据处理概述在当前的大数据时代，数据量的急剧增长使得传统的数据处理技术面临着前所未有的挑战。海量数据处理是指在合理的时间内，对大规模数据集进行高效存储、...

海量数据去重的Hash与BloomFilter,bitmap1: 在IT领域，尤其是在大数据处理和分布式系统中，数据去重是一项关键任务。本文将深入探讨两种常用的技术：哈希和布隆过滤器，以及它们在处理海量数据时的应用。哈希算法是数据去重的基础，它能够将任意大小的数据...

海量数据处理面试题.pdf: 面试中，关于海量数据处理的问题往往占据着举足轻重的地位，特别是在涉及秒杀系统、高并发处理和多线程应用的场景中。本文件《海量数据处理面试题.pdf》通过一系列面试题的分析，试图向读者提供一个关于海量数据处理...

常用大数据量，海量数据处理方法，算法总结: 海量数据处理方法总结本文总结了常用的海量数据处理方法，包括 Bloom filter、Hashing 和 bit-map 等。这些方法可以用来解决大数据量的问题，例如数据字典、判重、集合求交集等问题。 Bloom Filter Bloom filter...

海量数据处理的方法: ### 海量数据处理的方法详解 #### 一、Bloom Filter **定义**: Bloom Filter是一种高效的数据结构，用于快速判断一个元素是否在一个集合中。它使用位数组和多个哈希函数来实现。虽然Bloom Filter可能会产生误报...

教你如何迅速秒杀掉：99%的海量数据处理面试题: 当数据量达到一定程度，使得传统的数据处理方法无法在合理的时间内完成任务，或者数据太大无法一次性加载到内存中时，我们就面临海量数据处理的问题。解决这类问题的关键在于时间和空间优化。时间方面，我们通常利用...

99%的海量数据处理面试题: 这类问题通常涉及到存储、处理和操作大量数据，其中“海量”意味着数据量过大，以至于无法在短时间内直接处理或者无法全部加载到内存中。解决海量数据处理的时间和空间问题，通常采用的方法有： 1. **算法与数据...

中等规模海量数据处理实例分析: 在IT行业中，面对中等规模的海量数据处理是一项常见的挑战。在这个实例分析中，我们将探讨如何利用一台普通服务器高效地处理近60亿PV（页面浏览量）的数据。这一问题的核心在于优化数据处理策略，充分利用有限的计算...

大数据量,海量数据处理: 大数据量、海量数据处理是一种常见的数据处理问题，在近年来随着数据量的急剧增加，如何高效处理大数据量数据成为一个热门话题。以下是对大数据量处理的一些常见问题和解决方法的总结： 1. 根据给定的两个文件A和B...

大数据量，海量数据处理方法总结: ### 大数据量，海量数据处理方法总结在IT领域，特别是大数据分析、数据库管理和算法设计方面，处理海量数据的能力是至关重要的技能之一。本文旨在总结处理大数据量、海量数据的有效方法，涵盖从理论基础到实际应用...

常用大数据量、海量数据处理方法__算法总结.pdf: 大数据与海量数据处理算法总结在当今数据爆炸的时代，大数据处理是IT行业的一个热点。无论是社交网络、电子...通过总结这些常用的大数据处理算法，可以在实际工作中更有效地解决问题，提高数据处理的效率和准确性。

Global site tag (gtag.js) - Google Analytics