1. 程式人生 > >python 庫安裝方法及常用庫

python 庫安裝方法及常用庫

load 優秀 rip 興趣 import語句 rac 命令行 xlrd 其他

python庫安裝方法:

方法一:setpu.py

1.下載庫壓縮包,解壓,記錄下路徑:*:/**/……/

2.運行cmd,切換到*:/**/……/目錄下

3.運行setup.py build

4.然後輸入python,進入python模塊,驗證是否安裝成功

方法二:

1.Win + R 打開運行窗口,輸入cmd回車

2.找到pip安裝路徑——x:\Python xx\Scripts

3. 在命令行中切換至該目錄cd x:\Python xx\Scripts

4.輸入 pip install ***(庫名稱)

常用庫大全:

1.os——通過python實現操作系統中的功能:新建文件夾、指定路徑等

2.爬取網頁

2.1 urllib——爬取網頁

  urllib.request

2.2 bs4——對網頁按照標簽提取信息(需下載)

2.3 re——(Regular Expression 正則表達式)

2.4 Requests 庫——擅長處理那些復雜的HTTP 請求、cookie、header(響應頭和請求頭)等內容的Python 第三方庫(https://github.com/kennethreitz/requests/tarball/master) 

2.5 smtplib——收發郵件

2.6 Selenium 庫是一個在WebDriver 上調用的API。WebDriver 有點兒像可以加載網站的瀏覽器,但是它也可以像BeautifulSoup 對象一樣用來查找頁面元素,與頁面上的元素進行交互

(發送文本、點擊等),以及執行其他動作來運行網絡爬蟲。

2.7 collections ——數據結構

2.8 import random

PhantomJS 是一個“無頭”(headless)瀏覽器。它會把網站加載到內存並執行頁面上的JavaScript,但是它不會向用戶展示網頁的圖形界面。把Selenium 和PhantomJS 結合在一

起,就可以運行一個非常強大的網絡爬蟲了,可以處理cookie、JavaScrip、header,以及任何你需要做的事情。

3.數據存儲

3.1 pymysql——python存儲數據至mysql數據庫

3.2 xlrd,xlwt——將數據寫入excel的操作

4.文件讀取

4.1 PDFMiner3K——取PDF 文件 https://pypi.python.org/pypi/pdfminer3k

4.2 ython-docx 庫——持創建新文檔和讀取一些基本的文件數據,如文件大小和文件標題,不支持正文讀取。

5.算法

5.1 NLTK——自然語言處理 www.nltk.org 統計分析、詞義分析——書籍:Natural Language Processing with Python

5.2 Pillow 和Tesseract——圖像識別與文字處理

  (http://pillow.readthedocs.org/)

  Tesseract 是目前公認最優秀、最精確的開源OCR 系統。Tesseract 是一個Python 的命令行工具,不是通過import語句導入的庫。安裝之後,要用tesseract 命令在Python 的外面運行。在Windows 系統上,下載方便的可執行安裝文件(https://code.google.com/p/tesseract-ocr/downloads/list)安裝即可。Tesseract 最大的缺點是對漸變背景色的處理。

  創建圖片定位文件:每個字符是什麽,以及每個字符的具體位置——在線工具Tesseract OCR Chopper(http://pp19dd.com/tesseract-ocr-chopper/),因為它不需要安裝,也沒有其他依賴,只要有瀏覽器就可以運行,而且用法很簡單:上傳圖片,如果要增加新矩形就單擊“add”按鈕,還可以根據需要調整矩形的尺寸,最後把新生成的矩形定位文件復制到一個新文件裏就可以了。

  如果你對Tesseract 的其他訓練方法感興趣,甚至打算建立自己的驗證碼訓練文件庫,或者想和全世界的Tesseract 愛好者分享自己對一種新字體的識別成果,那麽我推薦你仔細閱讀Tesseract的文檔(https://github.com/tesseract-ocr/tesseract/wiki)。

5.3 NumPy——因為NumPy 可以用數學方法把圖片表示成巨大的像素數組,所以它可以流暢地配合Tesseract 完成任務。

6.JavaScript庫

6.1 jQuery

6.2 Google Analytics

7.GUI庫

7.1 tkinter——python3

python 庫安裝方法及常用庫