1. 程式人生 > >python寫網絡爬蟲的環境搭建

python寫網絡爬蟲的環境搭建

log site 文件夾 ... lxml blog pps 開始 資料

網上找了好多資料,都不全,通過資料的整理,包括自己的測試,終於把環境打好了,真是對於一個剛接觸爬蟲的人來說實屬不易,現在分享給大家,若有不夠詳細之處,希望各位網友能補充。

第一步,下載python,

這裏有一個巨坑,python2.x與python3.x變化實在是太大,博主開始用的python2.7,後來發現很多模塊版本太新,根本沒辦法使用,兼容性出了問題,索性把python2.7給卸了,然後下了python3.4,如果你習慣了用python2.x,就不要輕易升級,如果你是剛學python,建議還是安裝3.x版本。還有就是註意python是64位還是32位。

技術分享圖片

第二步,環境變量設置,由於會使用python命令,所以最好還是設一個

桌面計算機—>右鍵“屬性”—>點擊“高級系統設置”—>高級屬性裏點擊“環境變量”—>在系統變量裏path中添加python安裝目錄。

第三步,下載一個合適的idl(代碼編輯器),python自帶的idle實在是太水了,對於一個項目來說,根本滿足不了需求,只能做簡單的測試。現在成熟的idl很多,博主使用的是Pycharm,覺得挺好用的,其他的不了解,你們可以嘗試裝機試試。

技術分享圖片

技術分享圖片

第四步,下載Beautiful Soup,

Beautiful Soup是一個非常流行的python模塊,這個模塊可以解析網頁,並提供定位內容的便捷接口,對於Beautiful Soup的介紹,大家在網上都能查到,博主就不浪費時間了。對於python3.x必須安裝Beautiful Soup4,其他版本可能安裝不了。

下載後解壓到Python安裝目錄下

技術分享圖片技術分享圖片

打開cmd編輯器,進入到beautifulsoup文件夾內

執行

setup.py build

然後執行

setup.py install

這樣 Beautiful Soup模塊就順利的安裝到了python3.4裏

第五步,下載lxml庫,lxml是Python語言裏和XML以及HTML工作的功能最豐富和最容易使用的庫。這一步博主真是走了好多彎路,先是下載lxml的版本不匹配,再是pip版本太低,弄了好久終於解決了。

在資源庫裏下載:http://www.lfd.uci.edu/~gohlke/pythonlibs/,這裏lxml有好多版本:

技術分享圖片技術分享圖片

cp27代表是python2.7,cp34代表python3.4,amd64是64位的系統,不加代表32位。大家一定要對號入座,版本下錯就慘了,就像博主我。。。

下載後把它放進python的安裝目錄下,此操作與Beautiful Soup一樣,這樣主要是為了方便管理。在cmd命令裏,先執行“python -m pip install wheel”,安裝wheel,成功後在python目錄下的Lib\site-packages,能查看到wheel文件夾,代表安裝成功。

然後安裝lxml,“python -m pip install 你的lxml的路徑(D:\workapps\python3.4.4\lxml-3.6.4-.....)”,如果提示你pip版本太低,則先更新pip(pip是一個安裝和管理 Python 包的工具),命令行輸入“python -m pip upgrade pip”,升級完成後,再次安裝lxml,就完成了。最後打開Pycharm,測試程序OK!!!

技術分享圖片

附上淘寶網頁抓取測試代碼:

技術分享圖片

技術分享圖片

本文轉載於:https://blog.csdn.net/u011139117/article/details/52788785

python寫網絡爬蟲的環境搭建