1. 程式人生 > 程式設計 >Python 合併拼接字串的方法

Python 合併拼接字串的方法

問題

你想將幾個小的字串合併為一個大的字串

解決方案

如果你想要合併的字串是在一個序列或者 iterable 中,那麼最快的方式就是使用 join() 方法。比如:

>>> parts = ['Is','Chicago','Not','Chicago?']
>>> ' '.join(parts)
'Is Chicago Not Chicago?'
>>> ','.join(parts)
'Is,Chicago,Not,Chicago?'
>>> ''.join(parts)
'IsChicagoNotChicago?'
>>>

初看起來,這種語法看上去會比較怪,但是 join() 被指定為字串的一個方法。這樣做的部分原因是你想去連線的物件可能來自各種不同的資料序列(比如列表,元組,字典,檔案,集合或生成器等),如果在所有這些物件上都定義一個 join() 方法明顯是冗餘的。因此你只需要指定你想要的分割字串並呼叫他的 join() 方法去將文字片段組合起來。

如果你僅僅只是合併少數幾個字串,使用加號(+)通常已經足夠了:

>>> a = 'Is Chicago'
>>> b = 'Not Chicago?'
>>> a + ' ' + b
'Is Chicago Not Chicago?'
>>>

加號(+)操作符在作為一些複雜字串格式化的替代方案的時候通常也工作的很好,比如:

>>> print('{} {}'.format(a,b))
Is Chicago Not Chicago?
>>> print(a + ' ' + b)
Is Chicago Not Chicago?
>>>

如果你想在原始碼中將兩個字面字串合併起來,你只需要簡單的將它們放到一起,不需要用加號(+)。比如:

>>> a = 'Hello' 'World'
>>> a
'HelloWorld'
>>>

討論

字串合併可能看上去並不需要用一整節來討論。但是不應該小看這個問題,程式設計師通常在字串格式化的時候因為選擇不當而給應用程式帶來嚴重效能損失。

最重要的需要引起注意的是,當我們使用加號(+)操作符去連線大量的字串的時候是非常低效率的,因為加號連線會引起記憶體複製以及垃圾回收操作。特別的,你永遠都不應像下面這樣寫字串連線程式碼:

s = ''
for p in parts:
  s += p

這種寫法會比使用 join() 方法執行的要慢一些,因為每一次執行+=操作的時候會建立一個新的字串物件。你最好是先收集所有的字串片段然後再將它們連線起來。

一個相對比較聰明的技巧是利用生成器表示式(參考1.19小節)轉換資料為字串的同時合併字串,比如:

>>> data = ['ACME',50,91.1]
>>> ','.join(str(d) for d in data)
'ACME,91.1'
>>>

同樣還得注意不必要的字串連線操作。有時候程式設計師在沒有必要做連線操作的時候仍然多此一舉。比如在列印的時候:

print(a + ':' + b + ':' + c) # Ugly
print(':'.join([a,b,c])) # Still ugly
print(a,c,sep=':') # Better

當混合使用I/O操作和字串連線操作的時候,有時候需要仔細研究你的程式。比如,考慮下面的兩端程式碼片段:

# Version 1 (string concatenation)
f.write(chunk1 + chunk2)

# Version 2 (separate I/O operations)
f.write(chunk1)
f.write(chunk2)

如果兩個字串很小,那麼第一個版本效能會更好些,因為I/O系統呼叫天生就慢。另外一方面,如果兩個字串很大,那麼第二個版本可能會更加高效,因為它避免了建立一個很大的臨時結果並且要複製大量的記憶體塊資料。還是那句話,有時候是需要根據你的應用程式特點來決定應該使用哪種方案。

最後談一下,如果你準備編寫構建大量小字串的輸出程式碼,你最好考慮下使用生成器函式,利用yield語句產生輸出片段。比如:

def sample():
  yield 'Is'
  yield 'Chicago'
  yield 'Not'
  yield 'Chicago?'

這種方法一個有趣的方面是它並沒有對輸出片段到底要怎樣組織做出假設。例如,你可以簡單的使用 join() 方法將這些片段合併起來:

text = ''.join(sample())

或者你也可以將字串片段重定向到I/O:

for part in sample():
  f.write(part)

再或者你還可以寫出一些結合I/O操作的混合方案:

def combine(source,maxsize):
  parts = []
  size = 0
  for part in source:
    parts.append(part)
    size += len(part)
    if size > maxsize:
      yield ''.join(parts)
      parts = []
      size = 0
    yield ''.join(parts)

# 結合檔案操作
with open('filename','w') as f:
  for part in combine(sample(),32768):
    f.write(part)

這裡的關鍵點在於原始的生成器函式並不需要知道使用細節,它只負責生成字串片段就行了。

以上就是Python 合併拼接字串的方法的詳細內容,更多關於Python 合併拼接字串的資料請關注我們其它相關文章!