C语言实现HashTable

liuzhiqiangruc

浏览: 461842 次
性别:
来自: 北京

最近访客更多访客>>

u010491013

sh1818

chen.zhu

SheltonH03

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HashTable
C
数据结构

C HashTable 数据结构

C语言的少即是多：

从语言内容来讲，C绝对是足够精炼的，它提供且仅提供了我们工作所必须的编程元素。

从可以实现的功能以及能为我们提供的代码管理和性能支持上来看，它也做的恰到好处。

没有C++的繁琐、比脚本及所谓的OO语言更高效、当然也比汇编更容易理解。

不过对于用惯了Java的HashMap、LinkedHashMap，Python的Dict，以及PHP的Array 的同学来说，C的简洁似乎就有些简陋，甚至是蹩脚了。

最近项目中需要在C语言中使用HashTable来提高按键的查找速度，在网上找了很多现成的实现，发现写的都很随意，都有问题。很多现有的实现版本中都是使用char*作为key，void*作为值，这种做法最简单，但内存效率和计算效率都不高。

这种方案面临一个问题，就是：HashTable是否要申请新的内存空间来保存key和value的值，而不是只记录指针的值。

如果不保存，则指针指向的内存区可能会被其他代码销毁，则内容会丢失，程序会失败。

如果保存，就需要进行频繁的内存申请和销毁，尤其是当键或值是语言内置的基础类型（比如char、int、long、short、float、double）时，存放值的内存大小比存放指针值的内存还小。会导致更多的小块内存的操作和内存碎片。

为了能够让C更好地为我们的工作服务，我决定自己搞一个HashTable。

具体需求：

在我的项目中，很多情况下HashTable的key和value都是内置基础类型（如int、double），字符串的情况也比较多，其他的复杂情况极少。即我们的HashTable更多的是处理内置类型数据或者字符串数据。
需要支持对key、value按照插入顺序进行遍历。

我们的方案：

考虑到内置类型的size最大只有8Byte，而且所有指针本身的大小也是8Byte（64bit 的机器），因此我们只需要一个8Byte的空间来存错所有的基础类型的值，或者指针（一般是char*）。这样当面对基础类型的时候，不需要malloc额外的空间来存储，在遇到字符串类型（char*）的数据时，使用malloc申请内存空间存储字符串内容，并将指针存在这个8Byte的空间中。
同时HashTable要维护当前key和value的类型是什么，需要在插入数据和查找数据时根据key和value的类型做对应的类型转换。
key和value都支持有限的类型：key的类型只支持int、long、char*；value的类型支持char、short、int、long、float、double、char*。
至于按照插入顺序进行遍历，则只需要对插入的每个元素维护一个全局的指针域即可，这个可以参考Java中LinkedHashMap的实现。

数据结构设计：

考虑到上述情况，我们对HashTable的结构设计如下：

#define VLEN       8
#define TNLEN     32


typedef unsigned long ulong;
typedef unsigned int  uint;

typedef struct _bucket {
    ulong h;          /* hash value of key, keyvalue if key is a uint or ulong */
    char * key;       /* the point to key , if key is a string */
    char value[VLEN]; /* store a var of builtin type in a 8Byte buffer */
    struct _bucket *pListNext;
    struct _bucket *pListLast;
    struct _bucket *pNext;
    struct _bucket *pLast;
} Bucket;

typedef struct _hashtable{
    int nTableSize;
    int nTableMask;
    int nNumOfElements;
    char keyType[TNLEN];     /* can be "int","long","char*" */
    char valueType[TNLEN];   /* can be "char","short","int","long","float","double","char*" */
    Bucket * pInternalPointer;
    Bucket * pListHead;
    Bucket * pListTail;
    Bucket ** arBuckets;
} HashTable;

内存结构：

假设我们创建一个size（桶数）为6的HashTable，并且尝试插入4个元素，其中第一个元素和第四个元素hash冲突，第二个元素与第三个元素hash冲突。那么按照设计，该HashTable在内存中的结构如下图所示：

在按键查找时，先通过计算hash值，并计算hash值对应的桶的索引[0,6)，然后按照蓝色箭头pNext（指针）的指向即可找到对应的元素（或者找不到）。

在按照插入顺序遍历时，从head指针开始，按照墨色箭头pListNext（指针）的指向即可完成元素的遍历。

接口需求：

我们希望这个HashTable能够支持多种数据类型，而且在使用的时候尽可能的方便。

用户在创建HashTable的实例时指定key和value的类型，在进行增、删、改、查以及遍历操作时直接使用对应的类型操作即可。

假设用户系统通过如下方式访问该HashTable：

/*创建HashTable实例*/
HashTable * ht = create_hashtable(100,char*,double);  /*key：char*，value：double*/

/*插入元素"xiaoqiang" => 1234.567 */
hash_add("xiaoqiang",1234.567); 

/*插入元素"helloworld" => 234567.891 */ 
hash_add("helloworld",234567.891);  

/*遍历元素*/ 
char * key = NULL;  
double value = 0.0;  
for (reset(ht);isnotend(ht);next(ht)){   
    key = skey(ht);              /*获取当前字符串key*/  
    value = *(double*)value(ht); /*获取当前double类型的value值，需要做类型转换*/  
    printf("key: %s, value:%lf\n",key,value);  
}

接口设计：

为了向用户提供上述访问HashTable内容的方式，我们对HashTable的访问接口设计如下：

#define create_hashtable(size, ...)           \
       _create_hashtable(size, #__VA_ARGS__)

#define hash_add(ht,key,value)                \
       _hash_add((ht),(key),(value))

#define hash_find(ht,key,value)               \
       _hash_find((ht),(key),(value))

#define hash_del(ht,key)                      \
       _hash_del((ht),(key))

#define hash_exists(ht,key)                   \
       _hash_exists((ht),(key))

#define reset(ht)       ((ht)->pInternalPointer = (ht)->pListHead)
#define next(ht)        ((ht)->pInternalPointer = (ht)->pInternalPointer->pListNext)
#define isnotend(ht)    ((ht)->pInternalPointer != NULL)
#define nkey(ht)        ((ht)->pInternalPointer->h)
#define skey(ht)        ((ht)->pInternalPointer->key)
#define value(ht)       ((ht)->pInternalPointer->value)


HashTable * _create_hashtable(uint size, const char* s_typename);
int _hash_add(HashTable * ht, ...);
int _hash_find(HashTable * ht, ...);
int _hash_del(HashTable * ht, ...);
int _hash_exists(HashTable * ht, ...);
int  hash_num_elements(HashTable * ht);
void hash_free(HashTable * ht);

上述结构设计和接口设计共同构成了我们HashTable的头文件hashtable.h

剩下的就是实现_create_hashtable、_hash_add、_hash_add、_hash_find、_hash_del、_hash_exists、hash_num_elements和hash_free函数了。

具体的实现细节和更多的测试用例，就不在此一一列出。

用户可以访问该项目在googlecode上的地址：https://code.google.com/p/c-hash/

里面有完整的项目代码，并提供动态库libht.so，及静态库libhts.a 的库文件.

最后，欢迎拍砖和提出各种改进意见。

查看图片附件

分享到：

基于堆 [Heap] 结构的 TopK 问题实现 | 从车站卖报点看推荐与个性化推荐

2013-05-18 00:18
浏览 12820
评论(3)
分类:编程语言
查看更多

3 楼 liuzhiqiangruc 2015-12-16

zhoumengkang 写道

不就是 PHP 的实现么？

就是参照PHP的实现做的简化。

2 楼 zhoumengkang 2015-06-25

哈哈~谢谢博主！有收获！

1 楼 zhoumengkang 2015-06-25

不就是 PHP 的实现么？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论