python字符串方法大全
python中字符串對象提供了很多方法來操作字符串,功能相當豐富。
print(dir(str)) [..........'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']
這些方法的使用說明見官方文檔:string methods,本文對它們進行詳細解釋,各位以後可將本文當作手冊。
這裏沒有模式匹配(正則)相關的功能。python中要使用模式匹配相關的方法操作字符串,需要import re
導入re模塊。關於正則模式匹配,參見:re Module Contents。
註意,python中字符串是不可變對象,所以所有修改和生成字符串的操作的實現方法都是另一個內存片段中新生成一個字符串對象。例如,‘abc‘.upper()
將會在劃分另一個內存片段,並將返回的ABC
保存在此內存中。
下文出現的"S"表示待操作的字符串。本文沒有對casefold,encode,format,format_map
1.大小寫轉換
1.1 lower、upper
S.lower()
S.upper()
返回S字符串的小寫、大寫格式。(註意,這是新生成的字符串,在另一片內存片段中,後文將不再解釋這種行為)
例如:
>>> print('ab XY'.lower())
ab xy
>>> print('ab XY'.upper())
AB XY
1.2 title、capitalize
S.title()
S.capitalize()
前者返回S字符串中所有單詞首字母大寫且其他字母小寫的格式,後者返回首字母大寫、其他字母全部小寫的新字符串。
例如:
>>> print('ab XY'.title())
Ab Xy
>>> print('abc DE'.capitalize())
Abc de
1.3 swapcase
S.swapcase()
swapcase()
對S中的所有字符串做大小寫轉換(大寫-->小寫,小寫-->大寫)。
>>> print('abc XYZ'.swapcase())
ABC xyz
2.isXXX判斷
2.1 isalpha,isdecimal,isdigit,isnumeric,isalnum
S.isdecimal()
S.isdigit()
S.isnumeric()
S.isalpha()
S.isalnum()
測試字符串S是否是數字、字母、字母或數字。對於非Unicode字符串,前3個方法是等價的。
例如:
>>> print('34'.isdigit())
True
>>> print('abc'.isalpha())
True
>>> print('a34'.isalnum())
True
2.2 islower,isupper,istitle
S.islower()
S.isupper()
S.istitle()
判斷是否小寫、大寫、首字母大寫。要求S中至少要包含一個字符串字符,否則直接返回False。例如不能是純數字。
註意,istitle()
判斷時會對每個單詞的首字母邊界判斷。例如,word1 Word2
、word1_Word2
、word1()Word2
中都包含兩個單詞,它們的首字母都是"w"和"W"。因此,如果用istitle()
去判斷它們,將返回False,因為w
是小寫。
例如:
>>> print('a34'.islower())
True
>>> print('AB'.isupper())
True
>>> print('Aa'.isupper())
False
>>> print('Aa Bc'.istitle())
True
>>> print('Aa_Bc'.istitle())
True
>>> print('Aa bc'.istitle())
False
>>> print('Aa_bc'.istitle())
False
# 下面的返回False,因為非首字母C不是小寫
>>> print('Aa BC'.istitle())
False
2.3 isspace,isprintable,isidentifier
S.isspace()
S.isprintable()
S.isidentifier()
分別判斷字符串是否是空白(空格、制表符、換行符等)字符、是否是可打印字符(例如制表符、換行符就不是可打印字符,但空格是)、是否滿足標識符定義規則。
例如:
判斷是否為空白。沒有任何字符是不算是空白。
>>> print(' '.isspace()) True >>> print(' \t'.isspace()) True >>> print('\n'.isspace()) True >>> print(''.isspace()) False >>> print('Aa BC'.isspace()) False
判斷是否是可打印字符。
>>> print('\n'.isprintable()) False >>> print('\t'.isprintable()) False >>> print('acd'.isprintable()) True >>> print(' '.isprintable()) True >>> print(''.isprintable()) True
判斷是否滿足標識符定義規則。
標識符定義規則為:只能是字母或下劃線開頭、不能包含除數字、字母和下劃線以外的任意字符。>>> print('abc'.isidentifier()) True >>> print('2abc'.isidentifier()) False >>> print('abc2'.isidentifier()) True >>> print('_abc2'.isidentifier()) True >>> print('_abc_2'.isidentifier()) True >>> print('_Abc_2'.isidentifier()) True >>> print('Abc_2'.isidentifier()) True
3.填充
3.1 center
S.center(width[, fillchar])
將字符串居中,左右兩邊使用fillchar進行填充,使得整個字符串的長度為width。fillchar默認為空格。如果width小於字符串的長度,則無法填充直接返回字符串本身(不會創建新字符串對象)。
例如:
使用下劃線填充並居中字符串
>>> print('ab'.center(4,'_')) _ab_ >>> print('ab'.center(5,'_')) __ab_
使用默認的空格填充並居中字符串
>>> print('ab'.center(4)) ab >>> print(len('ab'.center(4))) 4
width小於字符串長度
>>> print('abcde'.center(3)) abcde
3.2 ljust和rjust
S.ljust(width[, fillchar])
S.rjust(width[, fillchar])
ljust()
使用fillchar填充在字符串S的右邊,使得整體長度為width。rjust()
則是填充在左邊。如果不指定fillchar,則默認使用空格填充。
如果width小於或等於字符串S的長度,則無法填充,直接返回字符串S(不會創建新字符串對象)。
例如:
>>> print('xyz'.ljust(5,'_'))
xyz__
>>> print('xyz'.rjust(5,'_'))
__xyz
3.3 zfill
S.zfill(width)
用0填充在字符串S的左邊使其長度為width。如果S前右正負號+/-
,則0填充在這兩個符號的後面,且符號也算入長度。
如果width小於或等於S的長度,則無法填充,直接返回S本身(不會創建新字符串對象)。
>>> print('abc'.zfill(5))
00abc
>>> print('-abc'.zfill(5))
-0abc
>>> print('+abc'.zfill(5))
+0abc
>>> print('42'.zfill(5))
00042
>>> print('-42'.zfill(5))
-0042
>>> print('+42'.zfill(5))
+0042
4.子串搜索
4.1 count
S.count(sub[, start[, end]])
返回字符串S中子串sub出現的次數,可以指定從哪裏開始計算(start)以及計算到哪裏結束(end),索引從0開始計算,不包括end邊界。
例如:
>>> print('xyabxyxy'.count('xy'))
3
# 次數2,因為從index=1算起,即從'y'開始查找,查找的範圍為'yabxyxy'
>>> print('xyabxyxy'.count('xy',1))
2
# 次數1,因為不包括end,所以查找的範圍為'yabxyx'
>>> print('xyabxyxy'.count('xy',1,7))
1
# 次數2,因為查找的範圍為'yabxyxy'
>>> print('xyabxyxy'.count('xy',1,8))
2
4.2 endswith和startswith
S.endswith(suffix[, start[, end]])
S.startswith(prefix[, start[, end]])
endswith()
檢查字符串S是否已suffix結尾,返回布爾值的True和False。suffix可以是一個元組(tuple)。可以指定起始start和結尾end的搜索邊界。
同理startswith()
用來判斷字符串S是否是以prefix開頭。
例如:
suffix是普通的字符串時。
>>> print('abcxyz'.endswith('xyz')) True # False,因為搜索範圍為'yz' >>> print('abcxyz'.endswith('xyz',4)) False # False,因為搜索範圍為'abcxy' >>> print('abcxyz'.endswith('xyz',0,5)) False >>> print('abcxyz'.endswith('xyz',0,6)) True
suffix是元組(tuple)時,只要tuple中任意一個元素滿足endswith的條件,就返回True。
# tuple中的'xyz'滿足條件 >>> print('abcxyz'.endswith(('ab','xyz'))) True # tuple中'ab'和'xy'都不滿足條件 >>> print('abcxyz'.endswith(('ab','xy'))) False # tuple中的'z'滿足條件 >>> print('abcxyz'.endswith(('ab','xy','z'))) True
4.3 find,rfind和index,rindex
S.find(sub[, start[, end]])
S.rfind(sub[, start[, end]])?
S.index(sub[, start[, end]])
S.rindex(sub[, start[, end]])
find()搜索字符串S中是否包含子串sub,如果包含,則返回sub的索引位置,否則返回"-1"。可以指定起始start和結束end的搜索位置。
index()和find()一樣,唯一不同點在於當找不到子串時,拋出ValueError
錯誤。
rfind()則是返回搜索到的最右邊子串的位置,如果只搜索到一個或沒有搜索到子串,則和find()是等價的。
同理rindex()。
例如:
>>> print('abcxyzXY'.find('xy'))
3
>>> print('abcxyzXY'.find('Xy'))
-1
>>> print('abcxyzXY'.find('xy',4))
-1
>>> print('xyzabcabc'.find('bc'))
4
>>> print('xyzabcabc'.rfind('bc'))
7
>>> print('xyzabcabc'.rindex('bcd'))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: substring not found
可以使用in
操作符來判斷字符串S是否包含子串sub,它返回的不是索引位置,而是布爾值。
>>> 'xy' in 'abxycd'
True
>>> 'xyz' in 'abxycd'
False
5.替換
5.1 replace
S.replace(old, new[, count])
將字符串中的子串old替換為new字符串,如果給定count,則表示只替換前count個old子串。如果S中搜索不到子串old,則無法替換,直接返回字符串S(不創建新字符串對象)。
>>> print('abcxyzoxy'.replace('xy','XY'))
abcXYzoXY
>>> print('abcxyzoxy'.replace('xy','XY',1))
abcXYzoxy
>>> print('abcxyzoxy'.replace('mn','XY',1))
abcxyzoxy
5.2 expandtabs
S.expandtabs(N)
將字符串S中的\t
替換為一定數量的空格。默認N=8。
註意,expandtabs(8)
不是將\t
直接替換為8個空格。例如‘xyz\tab‘.expandtabs()
會將\t
替換為5個空格,因為"xyz"占用了3個字符位。
另外,它不會替換換行符(\n
或\r
)時。
例如:
>>> '01\t012\t0123\t01234'.expandtabs(4)
'01 012 0123 01234'
>>> '01\t012\t0123\t01234'.expandtabs(8)
'01 012 0123 01234'
>>> '01\t012\t0123\t01234'.expandtabs(7)
'01 012 0123 01234'
>>> print('012\t0123\n01234'.expandtabs(7))
012 0123
01234
5.3 translate和maketrans
S.translate(table)
static str.maketrans(x[, y[, z]])
str.maketrans()
生成一個字符一 一映射的table,然後使用translate(table)
對字符串S中的每個字符進行映射。
如果你熟悉Linux,就知道tr命令,translate()實現的功能和tr是類似的。
例如,現在想要對"I love fairy"做一個簡單的加密,將裏面部分字符都替換為數字,這樣別人就不知道轉換後的這句話是什麽意思。
>>> in_str='abcxyz'
>>> out_str='123456'
# maketrans()生成映射表
>>> map_table=str.maketrans(in_str,out_str)
# 使用translate()進行映射
>>> my_love='I love fairy'
>>> result=my_love.translate(map_table)
>>> print(result)
I love f1ir5
註意,maketrans(x[, y[, z]])
中的x和y都是字符串,且長度必須相等。
如果maketrans(x[, y[, z]])
給定了第三個參數z,這這個參數字符串中的每個字符都會被映射為None。
例如,不替換"o"和"y"。
>>> in_str='abcxyz'
>>> out_str='123456'
>>> map_table=str.maketrans(in_str,out_str,'ay')
>>> my_love='I love fairy'
>>> result=my_love.translate(map_table)
>>> print(result)
I love fir
6.分割
6.1 partition和rpartition
S.partition(sep)
S.rpartition(sep)
搜索字符串S中的子串sep,並從sep處對S進行分割,最後返回一個包含3元素的元組:sep左邊的部分是元組的第一個元素,sep自身是元組的二個元素,sep右邊是元組的第三個元素。
partition(sep)
從左邊第一個sep進行分割,rpartition(sep)
從右邊第一個sep進行分割。
如果搜索不到sep,則返回的3元素元組中,有兩個元素為空。partition()是後兩個元素為空,rpartition()是前兩個元素為空。
例如:
# 只搜索到一個sep時,兩者結果相同
>>> print('abcxyzopq'.partition('xy'))
('abc', 'xy', 'zopq')
>>> print('abcxyzopq'.rpartition('xy'))
('abc', 'xy', 'zopq')
# 搜索到多個sep時,分別從左第一個、右第一個sep分割
>>> print('abcxyzxyopq'.partition('xy'))
('abc', 'xy', 'zxyopq')
>>> print('abcxyzxyopq'.rpartition('xy'))
('abcxyz', 'xy', 'opq')
# 搜索不到sep
>>> print('abcxyzxyopq'.partition('xyc'))
('abcxyzxyopq', '', '')
>>> print('abcxyzxyopq'.rpartition('xyc'))
('', '', 'abcxyzxyopq')
6.2 split、rsplit和splitlines
S.split(sep=None, maxsplit=-1)
S.rsplit(sep=None, maxsplit=-1)
S.splitlines([keepends=True])
都是用來分割字符串,並生成一個列表。
split()
根據sep對S進行分割,maxsplit用於指定分割次數,如果不指定maxsplit或者給定值為"-1",則會從做向右搜索並且每遇到sep一次就分割直到搜索完字符串。如果不指定sep或者指定為None,則改變分割算法:以空格為分隔符,且將連續的空白壓縮為一個空格。
rsplit()
和split()
是一樣的,只不過是從右邊向左邊搜索。
splitlines()用來專門用來分割換行符。雖然它有點像split(‘\n‘)
或split(‘\r\n‘)
,但它們有些區別,見下文解釋。
首先是split()的示例分析(rsplit()
示例略)。
# sep為單個字符時
>>> '1,2,3'.split(',')
['1', '2', '3']
>>> '1,2,3'.split(',',1)
['1', '2,3'] # 只分割了一次
>>> '1,2,,3'.split(',')
['1', '2', '', '3'] # 不會壓縮連續的分隔符
>>> '<hello><><world>'.split('<')
['', 'hello>', '>', 'world>']
# sep為多個字符時
>>> '<hello><><world>'.split('<>')
['<hello>', '<world>']
# 不指定sep時
>>> '1 2 3'.split()
['1', '2', '3']
>>> '1 2 3'.split(maxsplit=1)
['1', '2 3']
>>> ' 1 2 3 '.split()
['1', '2', '3']
>>> ' 1 2 3 \n'.split()
['1', '2', '3']
# 顯式指定sep為空格、制表符、換行符時
>>> ' 1 2 3 \n'.split(' ')
['', '1', '', '2', '', '3', '', '\n']
>>> ' 1 2 3 \n'.split('\t')
[' 1 2 3 \n']
>>> ' 1 2\n3 \n'.split('\n')
[' 1 2', '3 ', ''] # 註意列表的最後一項''
>>> ''.split('\n')
['']
再是splitlines()的示例分析。
splitlines()
中可以指定各種換行符,常見的是\n
、\r
、\r\n
。如果指定keepends為True,則保留所有的換行符。
>>> 'ab c\n\nde fg\rkl\r\n'.splitlines()
['ab c', '', 'de fg', 'kl']
>>> 'ab c\n\nde fg\rkl\r\n'.splitlines(keepends=True)
['ab c\n', '\n', 'de fg\r', 'kl\r\n']
將split()和splitlines()相比較一下:
#### split()
>>> ''.split('\n')
[''] # 因為沒換行符可分割
>>> 'One line\n'.split('\n')
['One line', '']
#### splitlines()
>>> "".splitlines()
[] # 因為沒有換行符可分割
>>> 'Two lines\n'.splitlines()
['Two lines']
7.join
S.join(iterable)
將可叠代對象(iterable)中的字符串使用S連接起來。註意,iterable中必須全部是字符串類型,否則報錯。
如果你還是python的初學者,還不知道iterable是什麽,卻想來看看join的具體語法,那麽你可以暫時將它理解為:字符串string、列表list、元組tuple、字典dict、集合set。
例如:
字符串
>>> L='python' >>> '_'.join(L) 'p_y_t_h_o_n'
元組
>>> L1=('1','2','3') >>> '_'.join(L1) '1_2_3'
集合。註意,集合無序。
>>> L2={'p','y','t','h','o','n'} >>> '_'.join(L2) 'n_o_p_h_y_t'
列表
>>> L2=['py','th','o','n'] >>> '_'.join(L2) 'py_th_o_n'
字典
>>> L3={'name':"malongshuai",'gender':'male','from':'China','age':18} >>> '_'.join(L3) 'name_gender_from_age'
iterable參與叠代的部分必須是字符串類型,不能包含數字或其他類型。
>>> L1=(1,2,3) >>> '_'.join(L1) Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: sequence item 0: expected str instance, int found
以下兩種也不能join。
>>> L1=('ab',2) >>> L2=('AB',{'a','cd'})
8.修剪:strip、lstrip和rstrip
S.strip([chars])
S.lstrip([chars])
S.rstrip([chars])
分別是移除左右兩邊、左邊、右邊的字符char。如果不指定chars或者指定為None
,則默認移除空白(空格、制表符、換行符)。
唯一需要註意的是,chars可以是多個字符序列。在移除時,只要是這個序列中的字符,都會被移除。
例如:
移除單個字符或空白。
>>> ' spacious '.lstrip() 'spacious ' >>> ' spacious '.rstrip() ' spacious' >>> 'spacious '.lstrip('s') 'pacious ' >>> 'spacious'.rstrip('s') 'spaciou'
2.移除字符中的字符。
>>> print('www.example.com'.lstrip('cmowz.')) example.com >>> print('wwwz.example.com'.lstrip('cmowz.')) example.com >>> print('wwaw.example.com'.lstrip('cmowz.')) aw.example.com >>> print('www.example.com'.strip('cmowz.')) 'example'
由於www.example.com
的前4個字符都是字符序列cmowz.
中的字符,所以都被移除,而第五個字符e不在字符序列中,所以修剪到此結束。同理wwwz.example.com
。
wwaw.example.com
中第3個字符a不是字符序列中的字符,所以修剪到此結束。
python字符串方法大全