python 庫安裝方法及常用庫
python庫安裝方法:
方法一:setpu.py
1.下載庫壓縮包,解壓,記錄下路徑:*:/**/……/
2.運行cmd,切換到*:/**/……/目錄下
3.運行setup.py build
4.然後輸入python,進入python模塊,驗證是否安裝成功
方法二:
1.Win + R 打開運行窗口,輸入cmd回車
2.找到pip安裝路徑——x:\Python xx\Scripts
3. 在命令行中切換至該目錄cd x:\Python xx\Scripts
4.輸入 pip install ***(庫名稱)
常用庫大全:
1.os——通過python實現操作系統中的功能:新建文件夾、指定路徑等
2.爬取網頁
2.1 urllib——爬取網頁
urllib.request
2.2 bs4——對網頁按照標簽提取信息(需下載)
2.3 re——(Regular Expression 正則表達式)
2.4 Requests 庫——擅長處理那些復雜的HTTP 請求、cookie、header(響應頭和請求頭)等內容的Python 第三方庫(https://github.com/kennethreitz/requests/tarball/master)
2.5 smtplib——收發郵件
2.6 Selenium 庫是一個在WebDriver 上調用的API。WebDriver 有點兒像可以加載網站的瀏覽器,但是它也可以像BeautifulSoup 對象一樣用來查找頁面元素,與頁面上的元素進行交互
(發送文本、點擊等),以及執行其他動作來運行網絡爬蟲。
2.7 collections ——數據結構
2.8 import random
PhantomJS 是一個“無頭”(headless)瀏覽器。它會把網站加載到內存並執行頁面上的JavaScript,但是它不會向用戶展示網頁的圖形界面。把Selenium 和PhantomJS 結合在一
起,就可以運行一個非常強大的網絡爬蟲了,可以處理cookie、JavaScrip、header,以及任何你需要做的事情。
3.數據存儲
3.1 pymysql——python存儲數據至mysql數據庫
3.2 xlrd,xlwt——將數據寫入excel的操作
4.文件讀取
4.1 PDFMiner3K——取PDF 文件 https://pypi.python.org/pypi/pdfminer3k
4.2 ython-docx 庫——持創建新文檔和讀取一些基本的文件數據,如文件大小和文件標題,不支持正文讀取。
5.算法
5.1 NLTK——自然語言處理 www.nltk.org 統計分析、詞義分析——書籍:Natural Language Processing with Python
5.2 Pillow 和Tesseract——圖像識別與文字處理
(http://pillow.readthedocs.org/)
Tesseract 是目前公認最優秀、最精確的開源OCR 系統。Tesseract 是一個Python 的命令行工具,不是通過import語句導入的庫。安裝之後,要用tesseract 命令在Python 的外面運行。在Windows 系統上,下載方便的可執行安裝文件(https://code.google.com/p/tesseract-ocr/downloads/list)安裝即可。Tesseract 最大的缺點是對漸變背景色的處理。
創建圖片定位文件:每個字符是什麽,以及每個字符的具體位置——在線工具Tesseract OCR Chopper(http://pp19dd.com/tesseract-ocr-chopper/),因為它不需要安裝,也沒有其他依賴,只要有瀏覽器就可以運行,而且用法很簡單:上傳圖片,如果要增加新矩形就單擊“add”按鈕,還可以根據需要調整矩形的尺寸,最後把新生成的矩形定位文件復制到一個新文件裏就可以了。
如果你對Tesseract 的其他訓練方法感興趣,甚至打算建立自己的驗證碼訓練文件庫,或者想和全世界的Tesseract 愛好者分享自己對一種新字體的識別成果,那麽我推薦你仔細閱讀Tesseract的文檔(https://github.com/tesseract-ocr/tesseract/wiki)。
5.3 NumPy——因為NumPy 可以用數學方法把圖片表示成巨大的像素數組,所以它可以流暢地配合Tesseract 完成任務。
6.JavaScript庫
6.1 jQuery
6.2 Google Analytics
7.GUI庫
7.1 tkinter——python3
python 庫安裝方法及常用庫