第 52 講：論一只爬蟲的自我修養

阿新 • • 發佈：2018-08-23

了解 src 數據庫搜索引擎質量下載高效產生首頁

技術分享圖片

>>> import urllib.request
>>> response = urllib.request.urlopen("http://www.fishc.com")
>>> a = response.read()

>>> a = a.decode("utf-8")

>>> print(a)

課後作業：

0. 請問 URL 是“統一資源標識符”還是“統一資源定位符”？

統一資源標識符

1. 什麽是爬蟲？

網絡爬蟲是一種程序,主要用於搜索引擎,它將一個網站的所有內容與鏈接進行閱讀,並建立相關的全文索引到數據庫中,然後跳到另一個網站.樣子好像一只大蜘蛛.

當人們在網絡上(如google)搜索關鍵字時,其實就是比對數據庫中的內容,找出與用戶相符合的.網絡爬蟲程序的質量決定了搜索引擎的能力,如google的搜索引擎明顯要比百度好,就是因為它的網絡爬蟲程序高效,編程結構好.
fAb-Hk5%2h4W`N}@3Gq~&Zipu

2. 設想一下，如果你是負責開發百度蜘蛛的攻城獅，你在設計爬蟲時應該特別註意什麽問題？

H#dK+1`

3. 設想一下，如果你是網站的開發者，你應該如何禁止百度爬蟲訪問你網站中的敏感內容？（課堂上沒講，可以自行百度答案）qgI"?Z .A

4. urllib.request.urlopen() 返回的是什麽類型的數據？‘JpH6<^
w

對象。

5. 如果訪問的網址不存在，會產生哪類異常？（雖然課堂沒講過，但你可以動手試試）3 kta
-
6. 魚C工作室（http://www.fishc.com）的主頁采用什麽編碼傳輸的？@a}UL"
=

utf=8

7. 為了解決 ASCII 編碼的不足，什麽編碼應運而生？G7j Y

動動手：

下載魚C工作室首頁（http://www.fishc.com），並打印前三百個字節

技術分享圖片

第 52 講：論一只爬蟲的自我修養

了解 src 數據庫搜索引擎質量下載高效產生首頁 >>> import urllib.request>>> response = urllib.request.urlopen("http://www.fishc.com")

第 52 講：論一只爬蟲的自我修養

第 52 講：論一只爬蟲的自我修養

《零基礎入門學習Python》第057講：論一隻爬蟲的自我修養5：正則表示式

《零基礎入門學習Python》第056講：論一隻爬蟲的自我修養4：網路爬圖

《零基礎入門學習Python》第055講：論一隻爬蟲的自我修養3：隱藏

《零基礎入門學習Python》第054講：論一隻爬蟲的自我修養2：實戰

《零基礎入門學習Python》第053講：論一隻爬蟲的自我修養

《零基礎入門學習Python》第061講：論一隻爬蟲的自我修養9：異常處理

《零基礎入門學習Python》第060講：論一隻爬蟲的自我修養8：正則表示式4

《零基礎入門學習Python》第059講：論一隻爬蟲的自我修養7：正則表示式3

《零基礎入門學習Python》第058講：論一隻爬蟲的自我修養6：正則表示式2

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

第031講：永久儲存：醃製一缸美味的泡菜

劍指offer程式設計題（JAVA實現)——第40題：陣列中只出現一次的數字

劍指offer程式設計題（JAVA實現)——第34題：第一次只出現一次的字元

第1講：一週學會linux實戰（第一天）基礎介紹

知乎用戶群分析--又雙叒叕一只爬蟲爬了知乎20萬用戶

《區塊鏈100問》第52集：區塊鏈資產能去中心化記賬

第 011講：一個打了激素的數組[02]

學習筆記-小甲魚Python3學習第四講：改進我們的小遊戲

學習筆記-小甲魚Python3學習第六講：python之常用操作符

第 52 講：論一只爬蟲的自我修養

相關推薦