1. 程式人生 > >爬蟲項目 (知識點)

爬蟲項目 (知識點)

red php isp 設計 線程 模塊 pytho html one

一. 基本介紹

技術分享
什麽是爬蟲?
    - 就是抓取網頁數據的程序

怎麽抓取網頁數據


網頁三大特征:
    - 每個網頁都有自己的URL (統一資源定位符) 來進行定位
    - 網頁都是用HTML(超文本標記語言)來描述頁面信息
    - 網頁都使用HTTP/HTTPS(超文本傳輸協議)來傳輸HTML數據

爬蟲的設計思路:
    -1. 首先確定需要爬取的網頁URL地址
    -2. 通過HTTP/HTTPS協議來獲取對應的HTML頁面
    -3. 提取HTML頁面裏面有用的數據
        a. 如果是需要的數據,就保存起來。
        b. 如果是頁面裏的其它URL,那就繼續執行第二步。

為什麽選擇Python做爬蟲?
    
- PHP 對多線程 異步支持不夠好 並發處理很弱 - Java Python爬蟲的最大對手,但是Java語言本身很笨重,代碼量很大,重構成本比較高 - C/C++ 運行效率幾乎最強,但是學習成本很高,代碼成型比較慢 - Python 語言優美,代碼簡潔,開發效率高,支持的模塊多,相關的HTTP請求模塊和 還有強大的爬蟲Scrapy 以及成熟高效的scrapy-redis分布式策略 而且 調用其他接口也非常方便(膠水語言)
View Code

爬蟲項目 (知識點)