最新文章列表

Add and Search Word - Data structure design

Design a data structure that supports the following two operations: void addWord(word) bool search(word) search(word) can search a literal word or a regular expression string containing only letters a ...
KickCode 评论(0) 有543人浏览 2016-01-23 03:20

Implement Trie (Prefix Tree)

Implement a trie with insert, search, and startsWith methods. Note: You may assume that all inputs are consist of lowercase letters a-z. 题目的要求很简单,完成一个前缀树的插入,搜索等功能。 Trie为前缀树,又称字典树或单词查找树,是一种用于快速检索的多叉树 ...
KickCode 评论(0) 有764人浏览 2016-01-23 02:36

字典树相关代码

package com.myway.study; import java.util.HashSet; import java.util.List; import java.util.Set; /** * 字典树 城市相关查询 (现针对26个英文字母) * User: zhangyong * Date: 14-8-10 * Time: 上午11:21 * To ...
makemyownlife 评论(0) 有964人浏览 2014-08-10 18:21

Lucene的数字范围搜索 (Numeric Range Query)原理

0. 全文索引的核心就是倒排索引.     1. 若数字不支持范围查询, 直接变成字符串查找即可     2. 如果要支持范围查询, 直接的字符串存储支持么?      目前lucene要求term按照字典序(lexicographic sortable)排列,
jimmee 评论(0) 有13485人浏览 2014-04-05 16:08

中文分词算法 之 词典机制性能优化与测试

在之前的两篇博文中文分词算法 之 基于词典的正向最大匹配算法和中文分词算法 之 基于词典的逆向最大匹配算法中,我们对分词实现和词典实现都做了优化,本文对词典实现做进一步优化,并和之前的多个实现做一个对比,使用的词典下载地址,使用的测试文本下载地址。   优化TrieV3的关键在于把虚拟根节点(/)的子节点(词表首字母)提升为多个相互独立的根节点,并对这些根节点建立索引。优化的依据是根节点(词 ...
yangshangchuan 评论(0) 有8491人浏览 2014-03-23 08:29

HBase-0.96中新BlockEncoding算法-PREFIX_TREE压缩的初步探究及测试

PREFIX_TREE(HBASE-4676)是HBase 0.96版本中新增加的一种DataBlock Encode算法。   1.什么是PREFIX_TREE 关于前缀树的介绍可以参考维基百科http://zh.wikipedia.org/wiki/Trie  当然其的实现会有差别   2.HBase中的DataBlock DataBlock是KeyValue的集合,是Hfil ...
shenchunhui 评论(4) 有12475人浏览 2013-04-08 21:24

trie 树 的代码

想起搜狐老大的一句话 看代码先看h文件,擦,当初感觉他这句话很2,现在想想,诶。 代码摘自 shellinabox // trie.h -- Basic implementation of a trie abstract data type #ifndef TRIE_H__ #define TRIE_H__ #include "libhttp/http.h" ...
haoningabc 评论(0) 有1096人浏览 2012-12-14 23:20

Trie字典树、数字查找、键树

1,需要先将要被查找的文字通过structure方法按照拼音构建成一棵树,每个匹配节点上装有查找目标对象。   2,完成的功能:用户在输入框里输入拼音 ...
leichenlei 评论(3) 有3754人浏览 2012-09-19 12:44

Trie树 单词查找树 键树

转自:http://zh.wikipedia.org/wiki/%E7%B4%A2%E5%9B%9E%E6%A0%91 Trie ,又称单词查找树 或键树 ,是一种树 形结构,是一种哈希 树的变种。典型应用是用于统计和排序大量的字符串 (但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表 ...
jaychang 评论(0) 有1114人浏览 2012-06-12 08:59

POJ_2513_Trie树+欧拉回路+并查集

链接:http://poj.org/problem?id=2513 1.把木棒的端点考虑为顶点,木棒考虑为边,建立起一个无向图。 2.问题转化为在无向图上判断是否有欧拉回路或者欧拉道路。 3.在无向图上判断是否有欧拉回路或者欧拉道路:欧拉定理+并查集(判断连通性) 4.考虑如何统计每个顶点的度,开始用的是暴力解法,直接用数组记录顶点,并且通过顺序查找获得顶点编号,TLE,然后考虑用map(红 ...
Coco_young 评论(0) 有1296人浏览 2012-03-02 00:11

关于几十万词汇量词典检索的讨论,希望大家见仁见智,帮我提出些意见吧!

目前YourDict词典程序大部分工作已经完成,英文检索速度小于1s,还算可以能接受,但汉语词典检索成了一个问题,汉语词典动辄60几万词的词量,让我程序检索时间骤然上升到了10几秒。。。让我很苦恼,在思考解决方法的过程中发现这也算是计算机科学的一个经典问题了,只不过这回是在Android,这样一个内存环境极度匮乏的情况下,建树等方式需要极端小心。。。希望大家能给我提出一个切实可行的方案! 如下是我 ...
tomyth 评论(0) 有810人浏览 2011-12-21 11:28

中文字典实现(一)

   中文单词不同于英文单词,区别在于中文单词组成元素是汉字,而英文单词的组成元素是英文字母,英文字母只有26个,而组成中文单词的常用汉字就多达8000多个。    一般的,英文单词字典采用trie树数据结构。结合trie(单词查找树)的特性,我们了解到,trie树结点的每一个结点包含组成单词的所有的元素,相应的,一棵英文单词查找树(trie)的结点中包含26个孩子结点,孩子结点与字符[a-z]一 ...
tree_star 评论(0) 有1358人浏览 2011-08-13 01:01

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics