`
xbcoil
  • 浏览: 123371 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Bloom Filter备忘

阅读更多

写这个纯属备忘,外加一点感悟.

 

Bloom Filter是一种去重的算法.

 

就是将庞大的需要去重的数据,进行Bloom Filter算法,首先新建一个庞大的数组a[],那么每条数据会按照hash算法,得到自己的hash值,然后在这个hash值为x的数组位置 a[x]标志为1,每个数据进行一次Bloom Filter,如果a[x]位置为1,那么表示已经有值,表示是重复数据.

完毕!

 

错误率就在: 庞大的数据hash值后肯定会有hash值相同的情况.

 

备忘:

hash值,hashtable貌似是同步的?

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics