BloomFilter算法

flyingdutchman

浏览: 353349 次
性别:
来自: 上海

最近访客更多访客>>

zyi74

zhanggang807

zhangshu001987

lizhitao

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2013-07 ( 18)
2013-06 ( 13)
2013-05 ( 53)
更多存档...

博客分类：

算法

算法 bloomfilter

        BloomFilter算法是在1970年提出的算法，具有很好的空间和时间效率，内部是依赖一些列hash算法和数组的。被用来检测一个元素是不是集合中的一个成员，允许有一定的出错率：如果某个数据被判断不在集合中，那么该数据就一定不会在这个集合中；由于hash会有碰撞存，那么如果判断某数据在集合内，这会种判断可能出错。一句话，就是判断为"false"的就一定不会有错，而判断为"true"，则有可能出错。可见 Bloom filter 是牺牲了正确率换取时间和空间，居于这种特性，我们可以把BloomFilter当成大数据快速排除算法。
        它是hash快速查表的改良快速算法。
        BloomFilter的特点：数据的插入和查询时间都是常数，另外它查询元素却不保存元素本身，具有良好的安全性。
        BloomFilter的缺点：当插入的元素越多，错判“在集合内”的概率就越大了，另外 Bloom filter 也不能删除一个元素，因为多个元素哈希的结果可能在 BloomFilter 结构中占用的是同一个位，如果删除了一个比特位，可能会影响多个元素的检测。
        Bloom filter 采用的是哈希函数的方法，将一个元素映射到一个 m 长度的阵列上的一个点，当这个点是 1 时，那么这个元素在集合内，反之则不在集合内。这个方法的缺点就是当检测的元素很多的时候可能有冲突，解决方法就是使用 k 个哈希函数对应 k 个点，如果所有点都是 1 的话，那么元素在集合内，如果有 0 的话，元素则不在集合内。
        在实际的应用中为了，可以使用“白名单”的方式和该算法来减少出错。
        BloomFilter算法思想是这样的：创建一个数组或BitMap，将之全部初始化为0，然后选择创建几个不同的hash函数，放入数据的时候，将加入地数据通过这几个hash函数得出数据在数组或BitMap中的下表，并以此将按其下标将对应的数组或BitMap中的数据改为1；判断数据是否包含在集合中的时候，还是通过这几个hash函数获得相应的几个hash值——即数组或BitMap的下表，然后循环判断下表对应的数据结构中的数据，如果其中有一个不为1，就可以判断数据不包含在聚合中，否则标识包含在聚合中。由上述过程我们可以看到，当判断为判断某数包含在集合时，可能有误判。
        BloomFilter跟单哈希函数Bit-Map不同之处在于：Bloom Filter使用了N个哈希函数，每个字符串跟N个bit对应，从而降低了冲突的概率。
        下面让我们看一下数据是如何加入到BloomFilter的结构中的：

        Bloom Filter参数选择
        1)、哈希函数选择
        哈希函数的选择对性能的影响应该是很大的，一个好的哈希函数要能近似等概率的将字符串映射到各个Bit。选择k个不同的哈希函数比较麻烦，一种简单的方法是选择一个哈希函数，然后送入k个不同的参数。
        2)、Bit数组大小选择
        哈希函数个数k、位数组大小m、加入的字符串数量n的关系，当 k = ln(2)* m/n 时出错的概率是最小的。