102從 Outlook 中將電子郵件、聯絡人和日曆匯出到 .pst 檔案
阿新 • • 發佈:2020-12-07
1.爬蟲是什麼?
#1、什麼是網際網路? 網際網路是由網路裝置(網線,路由器,交換機,防火牆等等)和一臺臺計算機連線而成,像一張網一樣。 #2、網際網路建立的目的? 網際網路的核心價值在於資料的共享/傳遞:資料是存放於一臺臺計算機上的, 而將計算機互聯到一起的目的就是為了能夠方便彼此之間的資料共享/傳遞,否則你只能拿U盤去別人的計算機上拷貝資料了。 #3、什麼是上網?爬蟲要做的是什麼? 我們所謂的上網便是由使用者端計算機發送請求給目標計算機, 將目標計算機的資料下載到本地的過程。 #3.1 只不過,使用者獲取網路資料的方式是: 瀏覽器提交請求->下載網頁程式碼->解析/渲染成頁面。 ```#3.2 而爬蟲程式要做的就是: 模擬瀏覽器傳送請求->下載網頁程式碼->只提取有用的資料->存放於資料庫或檔案中 #3.1與3.2的區別在於: ``` 我們的爬蟲程式只提取網頁程式碼中對我們有用的資料 #4、總結爬蟲 #4.1 爬蟲的比喻: 如果我們把網際網路比作一張大的蜘蛛網,那一臺計算機上的資料便是 蜘蛛網上的一個獵物,而爬蟲程式就是一隻小蜘蛛, 沿著蜘蛛網抓取自己想要的獵物/資料 ``` #4.2 爬蟲的定義: ``` 向網站發起請求,獲取資源後分析並提取有用資料的程式 ``` #4.3 爬蟲的價值: 網際網路中最有價值的便是資料,比如天貓商城的商品資訊,鏈家網的租房資訊,雪球網的證券投資資訊等等,這些資料都代表了各個行業的真金白銀,可以說,誰掌握了行業內的第一手資料,誰就成了整個行業的主宰,如果把整個網際網路的資料比喻為一座寶藏,那我們的爬蟲課程就是來教大家如何來高效地挖掘這些寶藏,掌握了爬蟲技能,你就成了所有網際網路資訊公司幕後的老闆,換言之,它們都在免費為你提供有價值的資料。
2.爬蟲的基本流程:發起請求--->獲取相應內容--->解析內容--->儲存資料
#1、發起請求 使用http庫向目標站點發起請求,即傳送一個Request Request包含:請求頭、請求體等 #2、獲取響應內容 如果伺服器能正常響應,則會得到一個Response Response包含:html,json,圖片,視訊等 #3、解析內容 解析html資料:正則表示式,第三方解析庫如Beautifulsoup,pyquery等 解析json資料:json模組 解析二進位制資料:以b的方式寫入檔案 #4、儲存資料 資料庫 檔案