改善 Python 程式的 91 個建議
下面是作者自己的經歷和一些建議供大家學習參考:寫Python也有四五年了,一直是用自己的“強迫症”在維持自己程式碼的質量,除了Google的Python程式碼規範外,從來沒有讀過類似的書籍。偶然的機會看到這麼一本書,讀完之後覺得還不錯,所以做個簡單的筆記。有想學習類似知識的朋友,又懶得去讀完整本書籍,可以參考一下。
1:引論
建議1、理解Pythonic概念—-詳見Python中的《Python之禪》
建議2、編寫Pythonic程式碼
(1)避免不規範程式碼,比如只用大小寫區分變數、使用容易混淆的變數名、害怕過長變數名等。有時候長的變數名會使程式碼更加具有可讀性。
(2)深入學習Python相關知識,比如語言特性、庫特性等,比如Python演變過程等。深入學習一兩個業內公認的Pythonic的程式碼庫,比如Flask等。
建議3:理解Python與C的不同之處,比如縮排與{},單引號雙引號,三元操作符?,Switch-Case語句等。
建議4:在程式碼中適當添加註釋
建議5:適當新增空行使程式碼佈局更加合理
建議6:編寫函式的4個原則
(1)函式設計要儘量短小,巢狀層次不宜過深
(2)函式宣告應該做到合理、簡單、易用
(3)函式引數設計應該考慮向下相容
(4)一個函式只做一件事,儘量保證函式粒度的一致性
建議7:將常量集中在一個檔案,且常量名儘量使用全大寫字母
2:程式設計慣用法
建議8:利用assert語句來發現問題,但要注意,斷言assert會影響效率
建議9:資料交換值時不推薦使用臨時變數,而是直接a, b = b, a
建議10:充分利用惰性計算(Lazy evaluation)的特性,從而避免不必要的計算
建議11:理解列舉替代實現的缺陷(最新版Python中已經加入了列舉特性)
建議12:不推薦使用type來進行型別檢查,因為有些時候type的結果並不一定可靠。如果有需求,建議使用isinstance函式來代替
建議13:儘量將變數轉化為浮點型別後再做除法(Python3以後不用考慮)
建議14:警惕eval()函式的安全漏洞,有點類似於SQL注入
建議15:使用enumerate()同時獲取序列迭代的索引和值
建議16:分清==和is的適用場景,特別是在比較字串等不可變型別變數時(詳見評論)
建議17:儘量使用Unicode。在Python2中編碼是很讓人頭痛的一件事,但Python3就不用過多考慮了
建議18:構建合理的包層次來管理Module
3:基礎用法
建議19:有節制的使用from…import語句,防止汙染名稱空間
建議20:優先使用absolute import來匯入模組(Python3中已經移除了relative import)
建議21:i+=1不等於++i,在Python中,++i前邊的加號僅表示正,不表示操作
建議22:習慣使用with自動關閉資源,特別是在檔案讀寫中
建議23:使用else子句簡化迴圈(異常處理)
建議24:遵循異常處理的幾點基本原則
(1)注意異常的粒度,try塊中儘量少寫程式碼
(2)謹慎使用單獨的except語句,或except Exception語句,而是定位到具體異常
(3)注意異常捕獲的順序,在合適的層次處理異常
(4)使用更加友好的異常資訊,遵守異常引數的規範
建議25:避免finally中可能發生的陷阱
建議26:深入理解None,正確判斷物件是否為空。Python中下列資料會判斷為空:
建議27:連線字串應優先使用join函式,而不是+操作
建議28:格式化字串時儘量使用.format函式,而不是%形式
建議29:區別對待可變物件和不可變物件,特別是作為函式引數時
建議30:[], {}和():一致的容器初始化形式。使用列表解析可以使程式碼更清晰,同時效率更高
建議31:函式傳引數,既不是傳值也不是傳引用,而是傳物件或者說物件的引用
建議32:警惕預設引數潛在的問題,特別是當預設引數為可變物件時
建議33:函式中慎用變長引數args和*kargs
(1)這種使用太靈活,從而使得函式簽名不夠清晰,可讀性較差
(2)如果因為函式引數過多而是用變長引數簡化函式定義,那麼一般該函式可以重構
建議34:深入理解str()和repr()的區別
(1)兩者之間的目標不同:str主要面向客戶,其目的是可讀性,返回形式為使用者友好性和可讀性都比較高的字串形式;而repr是面向Python直譯器或者說Python開發人員,其目的是準確性,其返回值表示Python直譯器內部的定義
(2)在直譯器中直接輸入變數,預設呼叫repr函式,而print(var)預設呼叫str函式
(3)repr函式的返回值一般可以用eval函式來還原物件
(4)兩者分別呼叫物件的內建函式str__()和__repr()
建議35:分清靜態方法staticmethod和類方法classmethod的使用場景
4:庫
建議36:掌握字串的基本用法
建議37:按需選擇sort()和sorted()函式
》sort()是列表在就地進行排序,所以不能排序元組等不可變型別。
》sorted()可以排序任意的可迭代型別,同時不改變原變數本身。
建議38:使用copy模組深拷貝物件,區分淺拷貝(shallow copy)和深拷貝(deep copy)
建議39:使用Counter進行計數統計,Counter是字典類的子類,在collections模組中
建議40:深入掌握ConfigParser
建議41:使用argparse模組處理命令列引數
建議42:使用pandas處理大型CSV檔案
》Python本身提供一個CSV檔案處理模組,並提供reader、writer等函式。
》Pandas可提供分塊、合併處理等,適用於資料量大的情況,且對二維資料操作更方便。
建議43:使用ElementTree解析XML
建議44:理解模組pickle的優劣
》優勢:介面簡單、各平臺通用、支援的資料型別廣泛、擴充套件性強
》劣勢:不保證資料操作的原子性、存在安全問題、不同語言之間不相容
建議45:序列化的另一個選擇JSON模組:load和dump操作
建議46:使用traceback獲取棧資訊
建議47:使用logging記錄日誌資訊
建議48:使用threading模組編寫多執行緒程式
建議49:使用Queue模組使多執行緒程式設計更安全
5:設計模式
建議50:利用模組實現單例模式
建議51:用mixin模式讓程式更加靈活
建議52:用釋出-訂閱模式實現鬆耦合
建議53:用狀態模式美化程式碼
6:內部機制
建議54:理解build-in物件
建議55:init__()不是構造方法,理解__new()與它之間的區別
建議56:理解變數的查詢機制,即作用域
》區域性作用域
》全域性作用域
》巢狀作用域
》內建作用域
建議57:為什麼需要self引數
建議58:理解MRO(方法解析順序)與多繼承
建議59:理解描述符機制
建議60:區別getattr__()與__getattribute()方法之間的區別
建議61:使用更安全的property
建議62:掌握元類metaclass
建議63:熟悉Python物件協議
建議64:利用操作符過載實現中綴語法
建議65:熟悉Python的迭代器協議
建議66:熟悉Python的生成器
建議67:基於生成器的協程和greenlet,理解協程、多執行緒、多程序之間的區別
建議68:理解GIL的侷限性
建議69:物件的管理和垃圾回收
7:使用工具輔助專案開發
建議70:從PyPI安裝第三方包
建議71:使用pip和yolk安裝、管理包
建議72:做paster建立包
建議73:理解單元測試的概念
建議74:為包編寫單元測試
建議75:利用測試驅動開發(TDD)提高程式碼的可測性
建議76:使用Pylint檢查程式碼風格
》程式碼風格審查
》程式碼錯誤檢查
》發現重複以及不合理的程式碼,方便重構
》高度的可配置化和可定製化
》支援各種IDE和編輯器的整合
》能夠基於Python程式碼生成UML圖
》能夠與Jenkins等持續整合工具相結合,支援自動程式碼審查
建議77:進行高效的程式碼審查
建議78:將包釋出到PyPI
8:效能剖析與優化
建議79:瞭解程式碼優化的基本原則
建議80:藉助效能優化工具
建議81:利用cProfile定位效能瓶頸
建議82:使用memory_profiler和objgraph剖析記憶體使用
建議83:努力降低演算法複雜度
建議84:掌握迴圈優化的基本技巧
》減少迴圈內部的計算
》將顯式迴圈改為隱式迴圈,當然這會犧牲程式碼的可讀性
》在迴圈中儘量引用區域性變數
》關注內層巢狀迴圈
建議85:使用生成器提高效率
建議86:使用不同的資料結構優化效能
建議87:充分利用set的優勢
建議88:使用multiprocessing模組克服GIL缺陷
建議89:使用執行緒池提高效率
建議90:使用C/C++模組擴充套件提高效能
建議91:使用Cythonb編寫擴充套件模組
來源:笑虎
zhuanlan.zhihu.com/p/32817459
關注公眾賬號
【飛馬會】
▼
往期福利
關注飛馬會公眾號,回覆對應關鍵詞打包下載學習資料;回覆“入群”,加入飛馬網AI、大資料、專案經理學習群,和優秀的人一起成長!
回覆 數字“1”下載從入門到研究,人工智慧領域最值得一讀的10本資料(附下載)
回覆 數字“2”機器學習 & 資料科學必讀的經典書籍,內附資料包!