hash表--c語言 字串鍵值配對——(key, value)
c語言鍵值配對——(key, value)
看一個C++專案時,其中解析配置文的部分引發了我的思考。 配置檔案問普通字元檔案,內容都是類似 如下: ipaddr=127.0.0.1 port=888 logfile=log C++對此配置檔案解析字元,按每次處理一行,以”=”作為分隔符將每行分成兩個字串作為(key,value)插入map 變數,舉個例子 以ipaddr=127.0.0.1為例:
std::map<std::string, std::string> config_map;
//key,value = “ipaddr","127.0.0.1"
config_map..insert(std ::make_pair("ipaddr", "127.0.0.1");
這個提取配置資訊作為鍵值對 在C++中很容易實現,但是在C專案中又該如何實現呢,好像沒有直接以字串作為索引的陣列,實現方式需要特殊處理。 我想到的是雜湊表,這個東西類似於陣列,但是索引值是以 字串計算而來,關於雜湊值得計算公式其實很簡單,就是對字串進行一系列操作。 網上有個網友寫了一篇很不錯的關於雜湊表的文章: 其中對於雜湊表的鏈地址法實現Hash寫的非常好,鏈地址能在一定程度上對鍵值衝突進行處理,如果鍵值衝突太頻繁,獲取就要考慮另一種方式實現了,但是對於今天的主題,鏈地址hash表已經足夠,並且簡單。 現附上那位網友的原始碼,後面我會稍微修改一下,來演示鍵值衝突: 程式碼來源
#include <string.h>
#include <stdio.h>
#include <stdlib.h>
typedef struct _node{
char *name;
char *desc;
struct _node *next;
}node;
#define HASHSIZE 101
static node* hashtab[HASHSIZE];
void inithashtab(){
int i;
for(i=0;i<HASHSIZE;i++)
hashtab[i]=NULL;
}
unsigned int hash(char *s){
unsigned int h=0;
for(;*s;s++)
h=*s+h*31;
return h%HASHSIZE;
}
node* lookup(char *n){
unsigned int hi=hash(n);
node* np=hashtab[hi];
for(;np!=NULL;np=np->next){
if(!strcmp(np->name,n))
return np;
}
return NULL;
}
char* m_strdup(char *o){
int l=strlen(o)+1;
char *ns=(char*)malloc(l*sizeof(char));
strcpy(ns,o);
if(ns==NULL)
return NULL;
else
return ns;
}
char* get(char* name){
node* n=lookup(name);
if(n==NULL)
return NULL;
else
return n->desc;
}
int install(char* name,char* desc){
unsigned int hi;
node* np;
if((np=lookup(name))==NULL){
hi=hash(name);
np=(node*)malloc(sizeof(node));
if(np==NULL)
return 0;
np->name=m_strdup(name);
if(np->name==NULL) return 0;
np->next=hashtab[hi];
hashtab[hi]=np;
}
else
free(np->desc);
np->desc=m_strdup(desc);
if(np->desc==NULL) return 0;
return 1;
}
/* A pretty useless but good debugging function,
which simply displays the hashtable in (key.value) pairs
*/
void displaytable(){
int i;
node *t;
for(i=0;i<HASHSIZE;i++){
if(hashtab[i]==NULL)
printf("()");
else{
t=hashtab[i];
printf("(");
for(;t!=NULL;t=t->next)
printf("(%s.%s) ",t->name,t->desc);
printf(".)\n");
}
}
}
void cleanup(){
int i;
node *np,*t;
for(i=0;i<HASHSIZE;i++){
if(hashtab[i]!=NULL){
np=hashtab[i];
while(np!=NULL){
t=np->next;
free(np->name);
free(np->desc);
free(np);
np=t;
}
}
}
}
main(){
int i;
char* names[]={"name","address","phone","k101","k110"};
char* descs[]={"Sourav","Sinagor","26300788","Value1","Value2"};
inithashtab();
//增加部分--------------------------列印hash_table_index
for(i = 0; i < 5; i++)
{
unsigned int hi=hash(names[i]);
printf("%s--hash_table_index=%d\n", names[i], hi);
}
//---------------------------------------列印hash_table_index
for(i=0;i<5;i++)
install(names[i],descs[i]);
printf("Done\n");
printf("If we didnt do anything wrong..""we should see %s\n",get("k110"));
install("phone","9433120451");
printf("Again if we go right, we have %s and %s\n",get("k101"),get("phone"));
displaytable();
cleanup();
return 0;
}
在此程式碼中,我添加了列印 字串 對應的hash值
//增加部分--------------------------列印hash_table_index
for(i = 0; i < 5; i++)
{
unsigned int hi=hash(names[i]);
printf("%s--hash_table_index=%d\n", names[i], hi);
}
//---------------------------------------列印hash_table_index
輸出資訊 可以看見,不同字串獲得hash值不一樣,目前還沒有鍵衝突,那麼每個字串在雜湊表(static node* hashtab[HASHSIZE])中的索引便知道了, 列印資訊很直白,結合原始碼很容易看懂。 下面來模擬 鍵衝突的情況,其實要想兩個不同的字串對應的hash值相同,即鍵衝突,這樣的兩個字串很難找到,不妨修改hash值的計算方式,給定一個固定值,修改如下程式碼:
unsigned int hash(char *s){
unsigned int h=0;
/**
for(;*s;s++)
h=*s+h*31;
**/
return h%HASHSIZE;
}
讓其獲得的hash值都為0,所以不管怎樣都會出現hash值相同,即鍵衝突 輸出資訊如下: 所有的鍵值對都在hash表的第一項中,衝突鍵使用單鏈表連線起來了,具體是在插入新字串鍵時先查詢已有hash表中是否存在,如果鍵值相等再比較字串是否相等,見下:
node* lookup(char *n){
unsigned int hi=hash(n);
node* np=hashtab[hi];
for(;np!=NULL;np=np->next){
if(!strcmp(np->name,n))
return np;
}
return NULL;
}
如果字串相等,返回已有的鍵值對,覆蓋對應的值,如果查詢不存在,申請新的空間,從連結串列頭部插入新鍵值對。 在C語言中鏈式雜湊表能實現類似 C++ 中map 的鍵值對功能,有這個需求的可以參考以上原始碼內容。