第 52 講:論一只爬蟲的自我修養
阿新 • • 發佈:2018-08-23
了解 src 數據庫 搜索引擎 質量 下載 高效 產生 首頁
2. 設想一下,如果你是負責開發百度蜘蛛的攻城獅,你在設計爬蟲時應該特別註意什麽問題?
>>> import urllib.request
>>> response = urllib.request.urlopen("http://www.fishc.com")
>>> a = response.read()
>>> a = a.decode("utf-8")
>>> print(a)
課後作業:
0. 請問 URL 是“統一資源標識符”還是“統一資源定位符”?
統一資源標識符
1. 什麽是爬蟲?
網絡爬蟲是一種程序,主要用於搜索引擎,它將一個網站的所有內容與鏈接進行閱讀,並建立相關的全文索引到數據庫中,然後跳到另一個網站.樣子好像一只大蜘蛛.
當人們在網絡上(如google)搜索關鍵字時,其實就是比對數據庫中的內容,找出與用戶相符合的.網絡爬蟲程序的質量決定了搜索引擎的能力,如google的搜索引擎明顯要比百度好,就是因為它的網絡爬蟲程序高效,編程結構好.
fAb-Hk5%2h4W`N}@3Gq~&Zipu
2. 設想一下,如果你是負責開發百度蜘蛛的攻城獅,你在設計爬蟲時應該特別註意什麽問題?
H#dK+1`
3. 設想一下,如果你是網站的開發者,你應該如何禁止百度爬蟲訪問你網站中的敏感內容?(課堂上沒講,可以自行百度答案)qgI"?Z .A
4. urllib.request.urlopen() 返回的是什麽類型的數據?‘JpH6<^
w
對象。
5. 如果訪問的網址不存在,會產生哪類異常?(雖然課堂沒講過,但你可以動手試試)3 kta
-
6. 魚C工作室(http://www.fishc.com)的主頁采用什麽編碼傳輸的?@a}UL"
=
utf=8
7. 為了解決 ASCII 編碼的不足,什麽編碼應運而生?G7j Y
動動手:
下載魚C工作室首頁(http://www.fishc.com),並打印前三百個字節
第 52 講:論一只爬蟲的自我修養