基本的字串操作及其實現
本文主要實現基本的字串操作,這些操作大部分都有C API,本文雖然是在重複造輪子,但是,並不是無用功。這些重造的輪子增加了引數判斷,可以讓自己的程式碼更加健壯。
為了簡便且可以說明問題,本文中使用了assert,而沒有使用if判斷。是個缺陷~~~
需要包含的標頭檔案
#include <stdlib.h>
#include <stdio.h>
#include <assert.h>
字串長度
C原型:
size_t strlen(const char *s);
功能:計算字串長度
返回值:字元個數
注:計算出來的長度,不包括最後的'\0'字元
size_t mystrlen(const char *s) { size_t len = 0; assert(NULL != s); while('\0' != *s++) ++len; return len; }
轉換成大寫(小寫)字母
功能:將字串中的字母字元全部轉成大寫或者小寫
返回值:轉換後的字串
注:非字母字元不做任何變化;入參會被改變,改變後的值同返回值
char *mystrtolower(char *s) { char *ps = s; assert(NULL != s); while('\0' != *ps) { if('A' <= *ps && 'Z' >=*ps) *ps = *ps - 'A' + 'a'; ps++; } return s; } char *mystrtoupper(char *s) { char *ps = s; assert(NULL != s); while('\0' != *ps) { if('a' <= *ps && 'z' >=*ps) *ps = *ps - 'a' + 'A'; ps++; } return s; }
字串賦值
C原型:
char *strcpy(char *dest, const char *src);
功能:將字串從src複製到dest
返回值:指向dest的指標
說明:dest要有足夠的空間去儲存從src複製來的字元
char *strncpy(char *dest, const char *src, size_t n);
功能:從src複製最多複製n個字元到dest
返回值:指向dest的指標
說明:如果複製的n個字元沒有以'\0'結束,dest也不會以'\0'結束
注:在下面的函式實現中,添加了'\0'結束dest,這一點與C API實現有點不同,且'\0'並不包含n個字元之中
char *mystrcpy(char *dest, const char *src) { char *addr = NULL; if(dest == src) return dest; assert((NULL != dest) && (NULL != src)); addr = dest; while('\0' != (*dest++ = *src++)); return addr; } char *mystrncpy(char *dest, const char *src, size_t n) { char *addr = NULL; assert(NULL != dest && NULL != src); addr = dest; while(n-- && '\0' != *src) *dest++ = *src++; *dest = '\0'; return addr; }
定位給定字元在字串中的位置
C原型:
char *strchr(const char *s, int c);
功能:定位給定字元c在字串s中首次出現的位置
返回值:指向匹配的字元的指標,如果找不到該字元,則返回NULL
char *strrchr(const char *s, int c);
功能:定位給定字元c在字串s中最後一次出現的位置
返回值:指向匹配的字元的指標,如果找不到該字元,則返回NULL
char *mystrchr(const char *s, int c)
{
char ch = (char)c;
assert(NULL != s);
for(; ch != *s; ++s)
if('\0' == *s)
return NULL;
return (char *)s;
}
char *mystrrchr(const char *s, int c)
{
char ch = (char)c;
const char *st = s;
assert(NULL != s);
while('\0' != *st)
st++;
for(--st; ch != *st; --st)
if(st == s)
return NULL;
return (char *)st;
}
字串比較
C原型:
int strcmp(const char *s1, const char *s2);
功能:比較兩個給定的字串
返回值:s1==s2返回0;s1<s2,返回負值;s1>s2返回正值
int strncmp(const char *s1, const char *s2, size_t n);
功能:比較兩個給定的字串,最多比較前n個字元
返回值:最多前n個字元,s1==s2返回0;s1<s2,返回負值;s1>s2返回正值
int strcasecmp(const char *s1, const char *s2);
int strncasecmp(const char *s1, const char *s2, size_t n);
說明:功能同上述兩個函式,只是,這兩個函式忽略字母的大小寫
int mystrcmp(const char *s1, const char *s2)
{
assert(NULL != s1 && NULL != s2);
while(*s1 && *s2 && *s1 == *s2)
{
s1++;
s2++;
}
return (*s1 - *s2);
}
int mystrncmp(const char *s1, const char *s2, size_t n)
{
assert(NULL != s1 && NULL != s2);
while(*s1 && *s2 && *s1 == *s2 && n--)
{
s1++;
s2++;
}
return (*s1 - *s2);
}
int mystrcasecmp(const char *s1, const char *s2)
{
char st1, st2;
assert(NULL != s1 && NULL != s2);
while(*s1 && *s2)
{
st1 = *s1;
st2 = *s2;
if('A' <= st1 && 'Z' >= st1)
st1 = st1 - 'A' + 'a';
if('A' <= st2 && 'Z' >= st2)
st2 = st2 - 'A' + 'a';
if(st1 != st2)
break;
s1++;
s2++;
}
return (*s1 - *s2);
}
int mystrncasecmp(const char *s1, const char *s2, size_t n)
{
char st1, st2;
assert(NULL != s1 && NULL != s2);
while(*s1 && *s2 && n--)
{
st1 = *s1;
st2 = *s2;
if('A' <= st1 && 'Z' >= st1)
st1 = st1 - 'A' + 'a';
if('A' <= st2 && 'Z' >= st2)
st2 = st2 - 'A' + 'a';
if(st1 != st2 || 0 == n)
break;
s1++;
s2++;
}
return (*s1 - *s2);
}
字串拼接
C原型:
char *strcat(char *dest, const char *src);
功能:將src拼接到dest後面
返回值:指向拼接後的dest的指標
說明:dest需要有足夠的空間
char *strncat(char *dest, const char *src, size_t n);
功能:將src的最多前n個字元拼接到dest後面
返回值:指向拼接後的dest的指標
說明:dest需要有足夠的空間,由於總是以'\0'結束,所以,最多向dest寫入n+1個字元
char *mystrcat(char *dest, const char *src)
{
char *addr = NULL;
assert(NULL != dest && NULL != src);
addr = dest;
while('\0' != *dest)
dest++;
while('\0' != (*dest++ = *src++));
return addr;
}
char *mystrncat(char *dest, const char *src, size_t n)
{
char *addr = NULL;
assert(NULL != dest && NULL != src);
addr = dest;
while('\0' != *dest)
dest++;
while(n-- && '\0' != *src)
*dest++ = *src++;
*dest = '\0';
return addr;
}
查詢字串
C原型:
char *strstr(const char *haystack, const char *needle);
功能:定位給定字串needle在字串s中首次出現的位置
返回值:指向字串的起始位置的的指標,如果找不到該字串,則返回NULL
說明:在Linux libc起初版本中,needle不能為空,但從4.6.27版本開始,needle為空時,返回haystack
#define _GNU_SOURCE
char *strcasestr(const char *haystack, const char *needle);
功能:定位給定字串needle在字串s中首次出現的位置,查詢時忽略字元的大小寫
返回值:指向字串的起始位置的的指標,如果找不到該字串,則返回NULL
說明:The strcasestr() function is a non-standard extension.strcasestr不是非標準擴充套件,用到該函式時,需要定義巨集_GNU_SOURCE
char * mystrstr(const char *haystack, const char *needle)
{
const char *s = NULL;
const char *t = NULL;
assert(NULL != haystack && NULL != needle);
for(; *haystack != '\0'; haystack++)
{
for(s = haystack, t = needle; *t != '\0' && *s != '\0'; ++s, ++t)
{
if(*t != *s)
break;
}
if('\0' == *t)
return (char *)haystack;
}
return NULL;
}
char * mystrcasestr(const char *haystack, const char *needle)
{
const char *s = NULL;
const char *t = NULL;
char cs, ts;
assert(NULL != haystack && NULL != needle);
for(; *haystack != '\0'; haystack++)
{
for(s = haystack, t = needle; *t != '\0' && *s != '\0'; ++s, ++t)
{
cs = *s;
ts = *t;
if('A' <= cs && 'Z' >= cs)
cs = cs - 'A' + 'a';
if('A' <= ts && 'Z' >= ts)
ts = ts - 'A' + 'a';
if(cs != ts)
break;
}
if('\0' == *t)
return (char *)haystack;
}
return NULL;
}
複製字串
C原型
char *strdup(const char *s);
功能:複製一個字串
返回值:複製後,新的字串的起始地址的指標
說明:內部以malloc分配空間,呼叫者需要呼叫free釋放,以防記憶體洩露
#define _GNU_SOURCE
char *strndup(const char *s, size_t n);
功能:複製最多n個字元到新的字串
返回值:複製後,新的字串的起始地址的指標
說明:複製後的新字串會被加上'\0'以結尾;該字元串同樣需要free釋放
注:strndp不是非標準擴充套件,用到該函式時,需要定義巨集_GNU_SOURCE
char *mystrdup(const char *s)
{
size_t len = 0;
const char *start = NULL;
char *addr = NULL;
if(NULL == s)
return NULL;
while(*s++ != '\0')
len++;
addr = (char *)malloc(len + 1);
assert(NULL != addr);
start = s;
while((*addr++ = *start++) != '\0');
return addr - (len + 1);
}
char *mystrndup(const char *s, size_t n)
{
size_t len = 0;
const char *start = NULL;
char *addr = NULL;
if(NULL == s)
return NULL;
while(*s++ != '\0')
len++;
if(len > n)
len = n;
addr = (char *)malloc(len + 1);
assert(NULL != addr);
n++;
start = s;
while(n-- && (*addr++ = *start++) != '\0');
*(addr-1) = '\0';
return addr - (len + 1);
}
多字元搜尋
C原型:
size_t strspn(const char *s, const char *accept);
功能:從引數s 字串的開頭計算連續的字元,而這些字元都完全是accept 所指字串中的字元。簡單的說,若strspn()返回的數值為n,則代表字串s 開頭連續有n 個字元都是屬於字串accept內的字元。
返回值:返回字串s開頭連續包含字串accept內的字元數目
size_t strcspn(const char *s, const char *reject);
功能:從引數s字串的開頭計算連續的字元,而這些字元都完全不在引數reject 所指的字串中。簡單地說,若strcspn()返回的數值為n,則代表字串s開頭連續有n個字元都不含字串reject內的字元。
返回值:返回字串s開頭連續不含字串reject內的字元數目
size_t mystrspn(const char *s, const char *accept)
{
const char *st = NULL;
const char *at = NULL;
assert(NULL != s && NULL != accept);
for(st = s; *st != '\0'; st ++)
{
for(at = accept; *at != '\0'; at++)
{
if(*st == *at)
break;
}
if(*at == '\0')
return st - s;
}
return st - s;
}
size_t mystrcspn(const char *s, const char *reject)
{
const char *st = NULL;
const char *at = NULL;
assert(NULL != s && NULL != reject);
for(st = s; *st != '\0'; st++)
for(at = reject; *at != '\0'; at++)
if(*st == *at)
return st - s;
return st - s;
}
搜尋多個字元中的第一個字元
C原型:
char *strpbrk(const char *s, const char *accept);
功能:找出引數s 字串中最先出現存在引數accept 字串中的任意字元
返回值:指向找到的字元的位置,找不到則返回NULL
char *mystrpbrk(const char *s, const char *accept)
{
const char *st = NULL,*at = NULL;
assert(NULL != s && NULL != accept);
for(st = s; *st != '\0'; st++)
for(at = accept; *at != '\0'; at++)
if(*st == *at)
return (char *)st;
return NULL;
}
根據分隔符提取字串
C原型:
char *strtok(char *str, const char *delim);
功能:strtok()用來將字串分割成一個個片段。引數s指向欲分割的字串,引數delim則為分割字串中包含的所有字元。當strtok()在引數s的字串中發現引數delim中包含的分割字元時,則會將該字元改為\0 字元。在第一次呼叫時,strtok()必需給予引數s字串,往後的呼叫則將引數s設定成NULL。
返回值:每次呼叫成功則返回指向被分割出片段的指標,如果不再含有delim,則返回NULL
說明:strtok用static變數儲存上次的分割位置,所以,不是執行緒安全的。
注:strtok函式會破壞被分解字串的完整,呼叫前和呼叫後的s已經不一樣了。
char *strtok_r(char *str, const char *delim, char **saveptr);
功能:同strtok,只是該函式是執行緒安全的。
說明:用*saveptr來儲存上次的分割位置,代替了strtok的靜態變數缺陷
char *strsep(char **stringp, const char *delim);
功能:同strtok
說明:如果*stringgp為NULL,則直接返回NULL;而strtok不允許str為NULL
注:strtok的替代函式,它可以接受空串;但strtok具有更好的可移植性
char *mystrtok(char *str, const char *delim)
{
assert(delim != NULL);
static char *last;
char *s = NULL;
const char *t = NULL;
if ( NULL == str && NULL == (str = last))
return NULL;
for( s = str ; *s != '\0'; s++)
for(t = delim; *t != '\0'; t++)
if(*s == *t)
{
last = s + 1;
if (s - str == 0)
{
str = last;
break;
}
*(str + (s - str)) = '\0';
return str;
}
return NULL;
}
char *mystrtok_r(char *s, const char *delim, char **save_ptr) {
char *token;
if (NULL == s)
s = *save_ptr;
s += mystrspn(s, delim);
if (*s == '\0')
return NULL;
token = s;
s = mystrpbrk(token, delim);
if (NULL == s)
*save_ptr = mystrchr(token, '\0');
else {
*s = '\0';
*save_ptr = s + 1;
}
return token;
}
char *mystrtok2(char *str, const char *delim)
{
static char * save;
return mystrtok_r(str, delim,&save);
}
char *mystrsep(char **stringp, const char *delim)
{
char *sbp = *stringp, *end;
if(NULL == sbp)
return NULL;
end = mystrpbrk(sbp, delim);
if(NULL != end)
*end++ = '\0';
*stringp = end;
return sbp;
}
由於分割字串不太好理解,附上測試程式:
另外,為了執行下面的測試程式,需要自己新增上所需要的本博文上述實現的函式。
#include <string.h>
void systok()
{
char str[] ="This is a sample string,just testing.";
char * pch;
printf ("Splitting string \"%s\" in tokens:\n",str);
pch = strtok (str," ");
while (pch != NULL)
{
printf ("%s\n",pch);
pch = strtok (NULL, " ,.");
}
}
void mytok()
{
char str[] ="This is a sample string,just testing.";
char * pch;
printf ("Splitting string \"%s\" in tokens:\n",str);
pch = mystrtok (str," ");
while (pch != NULL)
{
printf ("%s\n",pch);
pch = mystrtok (NULL, " ,.");
}
}
void systok_r()
{
int in=0,j;
char buffer[]="Fred male 25,John male 62,Anna female 16";
char *p[20];
char *buf=buffer;
char *outer_ptr=NULL;
char *inner_ptr=NULL;
while((p[in] = strtok_r(buf, ",", &outer_ptr))!=NULL)
{
buf=p[in];
while((p[in]=strtok_r(buf, " ", &inner_ptr))!=NULL)
{
in++;
buf=NULL;
}
buf=NULL;
}
printf("Here we have %d strings\n",in);
for (j=0; j<in; j++)
{
printf("%s\n",p[j]);
}
}
void mytok_r()
{
int in=0,j;
char buffer[]="Fred male 25,John male 62,Anna female 16";
char *p[20];
char *buf=buffer;
char *outer_ptr=NULL;
char *inner_ptr=NULL;
while((p[in] = mystrtok_r(buf, ",", &outer_ptr))!=NULL)
{
buf=p[in];
while((p[in]=mystrtok_r(buf, " ", &inner_ptr))!=NULL)
{
in++;
buf=NULL;
}
buf=NULL;
}
printf("Here we have %d strings\n",in);
for (j=0; j<in; j++)
{
printf("%s\n",p[j]);
}
}
int main()
{
systok();
printf("=============================================\n");
mytok();
printf("=============================================\n");
systok_r();
printf("=============================================\n");
mytok_r();
}