1. 程式人生 > 其它 >1. 資料處理類庫

1. 資料處理類庫

Chardet字元編碼探測器,可以自動檢測文字、網頁、xml的編碼。

colorama主要用來給文字新增各種顏色,並且非常簡單易用。

Prettytable主要用於在終端或瀏覽器端構建格式化的輸出。

difflib,[Python]標準庫,計算文字差異

Levenshtein,快速計算字串相似度。

fuzzywuzzy,字串模糊匹配。

esmre,正則表示式的加速器。

shortuuid,一組簡潔URL/UUID函式庫。

ftfy,Unicode文字工具7

unidecode,ascii和Unicode文字轉換函式。

xpinyin,將漢字轉換為拼音的函式庫

pangu.py,調整對中日韓文字當中的字母、數字間距。

pyfiglet,Python寫的figlet程式,使用字元組成ASCII藝術圖片

uniout,提取字串中可讀寫的字元

awesome slugify,一個Python slugify庫,用於處理Unicode。

python-slugify,轉換Unicode為ASCII內碼的slugify函式庫。

unicode-slugify,生成unicode內碼,Django的依賴包。

ply,Python版的lex和yacc的解析工具

phonenumbers,解析電話號碼,格式,儲存和驗證的國際電話號碼。

python-user-agents,瀏覽器的使用者代理(user-agents)的解析器。

sqlparse,SQL解析器。

pygments,一個通用的語法高亮工具。

python-nameparser,解析人名,分解為單獨的成分。

pyparsing,通用解析器生成框架。

tablib,表格資料格式,包括,XLS、CSV,JSON,YAML。

python-docx,docx文件讀取,查詢和修改,微軟Word 2007 / 2008的docx檔案。

xlwt/xlrd,讀寫Excel格式的資料檔案。

xlsxwriter,建立Excel格式的xlsx檔案。

xlwings,利用Python呼叫Excel

csvkit,CSV檔案工具包。

marmir,把Python[資料結構],轉化為電子表格。

pdfminer,從PDF檔案中提取資訊。

pypdf2, 合併和轉換PDF頁面的函式庫。

Python-Markdown,輕量級標記語言Markdown的Python實現。

Mistune,,快速、全功能的純Python編寫的Markdown直譯器。

dateutil,標準的Python官方datetime模組的擴充套件包,字串日期工具,其中parser是根據字串解析成datetime,而rrule是則是根據定義的規則來生成datetime。

arrow,更好的日期和時間處理Python庫

chronyk,一個Python 3版函式庫,用於解析人寫的時間和日期。

delorean,清理期時間的函式庫。

when.py,為見的日期和時間,提供人性化的功能。

moment,類似Moment.js的日期/時間Python庫

pytz,世界時區,使用tz database時區資訊[資料庫]

BeautifulSoup,基於Python的HTML/XML解析器,簡單易用, 功能很強大,即使是有bug,有問題的html程式碼,也可以解析

lxml,快速,易用、靈活的HTML和XML處理庫,功能超強,在遇到有缺陷、不規範的xml時,Python自帶的xml處理器可能無法解析。報錯時,程式會嘗試再用lxml的修復模式解析

。 htmlparser,官方版解析HTML DOM樹,偶爾搞搞命令列自動錶單提交用得上。

pyyaml,Python版本的YAML直譯器。

html5lib,-標準庫,解析和序列化HTML文件和片段。

pyquery,類似[jQuery]的的HTML直譯器函式庫。

cssutils,Python CSS庫。

MarkupSafe,XML或HTML / XHTML安全字串標記工具。

cssutils - ACSS library for Python., MarkupSafe - Implements a XML/HTML/XHTML bleach,漂白,基於HTML的白名單函式庫。

xmltodict,類似JSON的XML工具包。

xhtml2pdf,HTML / CSS格式轉換器,看生成pdf文件。

untangle,把XML文件,轉換為Python物件,方便訪問。