1. 程式人生 > >第 52 講:論一只爬蟲的自我修養

第 52 講:論一只爬蟲的自我修養

了解 src 數據庫 搜索引擎 質量 下載 高效 產生 首頁

技術分享圖片

技術分享圖片

>>> import urllib.request
>>> response = urllib.request.urlopen("http://www.fishc.com")
>>> a = response.read()

>>> a = a.decode("utf-8")

>>> print(a)

課後作業:

0. 請問 URL 是“統一資源標識符”還是“統一資源定位符”?

統一資源標識符

1. 什麽是爬蟲?

網絡爬蟲是一種程序,主要用於搜索引擎,它將一個網站的所有內容與鏈接進行閱讀,並建立相關的全文索引到數據庫中,然後跳到另一個網站.樣子好像一只大蜘蛛.

當人們在網絡上(如google)搜索關鍵字時,其實就是比對數據庫中的內容,找出與用戶相符合的.網絡爬蟲程序的質量決定了搜索引擎的能力,如google的搜索引擎明顯要比百度好,就是因為它的網絡爬蟲程序高效,編程結構好.
fAb-Hk5%2h4W`N}@3Gq~&Zipu


2. 設想一下,如果你是負責開發百度蜘蛛的攻城獅,你在設計爬蟲時應該特別註意什麽問題?

H#dK+1`

3. 設想一下,如果你是網站的開發者,你應該如何禁止百度爬蟲訪問你網站中的敏感內容?(課堂上沒講,可以自行百度答案)qgI"?Z .A

4. urllib.request.urlopen() 返回的是什麽類型的數據?‘JpH6<^
w

對象。

5. 如果訪問的網址不存在,會產生哪類異常?(雖然課堂沒講過,但你可以動手試試)3 kta
-
6. 魚C工作室(http://www.fishc.com)的主頁采用什麽編碼傳輸的?@a}UL"
=

utf=8

7. 為了解決 ASCII 編碼的不足,什麽編碼應運而生?G7j Y

動動手:

下載魚C工作室首頁(http://www.fishc.com),並打印前三百個字節

技術分享圖片

技術分享圖片

第 52 講:論一只爬蟲的自我修養