BloomFilter和trie - 大神带我来搬砖 - ITeye博客

`

kabike

浏览: 599373 次
性别:
来自: 大连

最近访客更多访客>>

agreetech

confused9090

kavy

aininim

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fei33423：同意你的说法. hbase 的强一致性分为两部分来说. 数据分 ...
浅谈Hbase 的强一致性
zengwenbo5566： ,高人，刚安装了 genymotion 那个附带 virtu ...
VirtualBox报错Unable to load R3 module GetLastError=1790 (VERR_UNRESOLVED_ERROR
kabike： QQ1289714862 写道这代码有问题吧 bar1 bar ...
AtomicBoolean运用
QQ1289714862：这代码有问题吧 bar1 bar2 那来的你是不是new了两 ...
AtomicBoolean运用
DEMONU：需要依赖这么多东西啊
hbase 0.96和hadoop 2.2 java 客户端的jar依赖

BloomFilter和trie

博客分类：

基础

阅读更多

记录下最近刚刚了解到了两种数据结构BloomFilter和trie

trie:
有一天,有个同学问了个问题,假设有个敏感词列表["敏感词1","敏感词2","敏感词3","敏感词4"],
如何快速判断一组字符串的每个字符串是否包含了所有的敏感词.
这要是用双重for循环,contains那套方法,估计都能跑死.所以我当时想到了把敏感词列表预先做成自动机.然后循环一遍
字符串数组.不过怎么构造那个自动机呢,后来那同学提到了trie的概念.trie可以用来实现高速的字符串匹配.这是典型的空间换时间
具体可以看http://en.wikipedia.org/wiki/Trie

BloomFilter:
BloomFilter是做hadoop semijoin时发现的,它的思路是用容错率来换空间.就像一个hashset,只是BloomFilter有一定的不准确性.
具体可以看http://en.wikipedia.org/wiki/Bloom_filter

分享到：

[转载]MySQL索引背后的数据结构及算法原理 | IE7下absolute定位的hover伪类元素的一个 ...

2012-12-26 14:47
浏览 1343
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Trie的算法中具有计数BloomFilter的高效IP地址查找: 基于Trie的算法中具有计数BloomFilter的高效IP地址查找

论文研究-中文短文本去重方法研究.pdf: 考虑到短文本海量性和简短性的特点，以及中文与英文之间的区别，引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重，第二阶段由SimHash算法进行相似去重。设计了该...

以太坊的数据结构（状态树、交易树、收据树）及代码分析: 文章目录一、状态树1.1 trie1.2 Patricia tree(trie)1.3 Merkle Patricia tree(trie)1.4 Modified Merkle Patricia tree(trie)1.5 账户状态值存储二...Merkle Patricia tree(trie)2.3 布隆过滤器（bloom filter）2.4 总结...

CPPNotes:【C++ 面试 + C++ 学习指南】一份涵盖大部分 C++ 程序员所需要掌握的核心知识: CPPNotes 如下是 C++ 后台研发技术路线以及知识点，...BloomFilter原理 Trie树原理 LSM树原理 linux下操作命令以及工具工作中常用的linux 命令编译工具GCC 调试工具GDB 性能优化工具Perf 内存泄露检查工具Valgrind

程序员编程艺术：面试和算法心得.pdf: • 第六章海量数据处理 o 6.0 本章导读 o 6.1 关联式容器 o 6.2 分而治之 o 6.3 simhash 算法 o 6.4 外排序 o 6.5 MapReduce o 6.6 多层划分 o 6.7 Bitmap o 6.8 Bloom filter o 6.9 Trie 树 o 6.10 数据库 o 6.11 ...

大数据海量数据处理方法总结: 大数据量，海量数据处理方法总结包括Bloom filter 哈希 bit-map 堆双层桶划分数据库索引倒排索引外排序 trie树等。细分为适用范围、要点、实例等。

Robinson Crusoe: 鲁滨逊漂流记英文原版，可用来测试bloomfilter、KMP/BM、AC自动机、Trie树、Wu-manber算法的匹配效果.

数据结构常用算法c++实现: Bloom Filter SHA-1 Message Digest Algorithm MD5 Base64 Graph data structure Strongly Connected Components(SCC) Prim's minimum spanning tree Kruskal MST Directed/Undirected graph ops Breadth First ...

lrucacheleetcode-awesome-algorithm:代码模板、脑图、Top100高频LeetCode题-极简实用的算法和数据: lru缓存leetcode 很棒的算法和数据结构 ...BloomFilter LRU cache 算法 Look up Double pointer Recursion Divide and conquer Search, DFS, BFS, A* Backtracking Dynamic Programming Binary Search Greedy String-

javalruleetcode-Algorithms:数据结构和算法: BloomFilter LRU Cache Algorithm Greedy Recursion/Backtrace Traversal Breadth-first/Depth-first search Divide and Conquer Dynamic ProgrammingBinary Search Graph System Design System architecture ...

lrucacheleetcode-algorithm:记录学习算法的过程: lru cache leetcode 算法与数据结构为什么学习内功大厂要求手写有趣且实用如何学习关键 chunk it up sorting link ...Trie BloomFilter LRU Cache Algorithm General Coding In-order / Pre-

lrucacheleetcode-beihu-leetcode:力扣算法: BloomFilter LRU Cache 算法 Sorting 排序算法 Graph 图 Hashing 哈希 Greedy 贪婪算法 Resursion/Backtrace 递归/回溯 Traversal 遍历前中后序(In-Order/Pre-Order/Post-Order) Breadth-first/Depth-first search ...

javalruleetcode-algorithm-java:leetcode刷题: java lru leetcode 算法练习刷题的仓库理论基础：熟悉常见的数据结构、起码看过一本...BloomFilter LRU Cache Algorithm General Coding InOrder/PreOrder/PostOrder Traversal Greedy Recursion/Backtrace Breadth-fi

数据结构Advanced-Data-Structures: Bloom filter 512 Locality preserving hashing 523 Morton number 524 Zobrist hashing 529 Rolling hash 530 Hash list 531 Hash tree 532 Prefix hash tree 534 Hash trie 535 Hash array mapped trie 535 ...

大数据面试题(2).docx: 将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。 2、有10个文件，每个文件1G，每...

lrucacheleetcode-boy-leetcode:leetcode练习: lru cache leetcode boy-leetcode leetcode practise | 练习 LeetCode 题目 + 分类 + 公司归档切题四件套 ...Trie ...Bloom Filter 布隆过滤器 LRU Cache 缓存 --算法-- General Coding 常规编码 In-or

data-structures:用JavaScript实现的基本数据结构: bloomFilter 某些代码可能是用ES6编写的，可能需要进行编译才能进行测试。要求在Chrome chrome://flags/#enable-javascript-harmony.上启用了ES6 chrome://flags/#enable-javascript-harmony. Babeljs.io进行...

JAVA大数据处理题.pdf: 将其中⼀个⽂件中的url使⽤Bloom filter映射为这 340亿bit，然后挨个读取另外⼀个⽂件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有⼀定的错误率）。 2. 有10个⽂件，每个⽂件1G，每...

javalruleetcode-thinkermaster-arithmetic:学习算术并将其公开到thinkermaster.com: java lru leetcode 开始 DaLiu Start... 数据结构 (data structure) 是相互之间存在一种或多种特定关系的数据元素的集合研究的是数据的逻辑结构或物理结构 ...布隆过滤器BloomFilter LRU Cache 算法 If-else, switch -

lyq-algorithms-lib:lyq算法库，涉及到相关数据挖掘，解压缩，模式匹配，图算法等多领域算法: lyq-algorithms-liblyq算法库，涉及到相关数据挖掘，解压缩，模式匹配，图算法等多领域算法BloomFilter布隆过滤器算法。可以用来判读一个集合是否存在的问题原理是运用哈希算法将值进行映射，不需要暴力的遍历数据...

Global site tag (gtag.js) - Google Analytics