爬蟲項目 (知識點)
阿新 • • 發佈:2017-08-26
red php isp 設計 線程 模塊 pytho html one
一. 基本介紹
什麽是爬蟲? - 就是抓取網頁數據的程序 怎麽抓取網頁數據 網頁三大特征: - 每個網頁都有自己的URL (統一資源定位符) 來進行定位 - 網頁都是用HTML(超文本標記語言)來描述頁面信息 - 網頁都使用HTTP/HTTPS(超文本傳輸協議)來傳輸HTML數據 爬蟲的設計思路: -1. 首先確定需要爬取的網頁URL地址 -2. 通過HTTP/HTTPS協議來獲取對應的HTML頁面 -3. 提取HTML頁面裏面有用的數據 a. 如果是需要的數據,就保存起來。 b. 如果是頁面裏的其它URL,那就繼續執行第二步。 為什麽選擇Python做爬蟲?View Code- PHP 對多線程 異步支持不夠好 並發處理很弱 - Java Python爬蟲的最大對手,但是Java語言本身很笨重,代碼量很大,重構成本比較高 - C/C++ 運行效率幾乎最強,但是學習成本很高,代碼成型比較慢 - Python 語言優美,代碼簡潔,開發效率高,支持的模塊多,相關的HTTP請求模塊和 還有強大的爬蟲Scrapy 以及成熟高效的scrapy-redis分布式策略 而且 調用其他接口也非常方便(膠水語言)
爬蟲項目 (知識點)