Python爬蟲第二篇--基礎篇

阿新 • • 發佈：2018-11-30

爬蟲概念

請求網站並提取資料的自動化程式。

爬蟲基本流程

發起請求

通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的header等資訊，等待伺服器響應。
獲取響應內容

如果伺服器能正常響應，會得到一個Response，Response的內容便是所要獲取的頁面內容，型別可能有HTML，Json字串，二進位制資料（如圖片視訊）等型別。
解析內容

得到的內容可能是HTML，可以用正則表示式、網頁解析庫進行解析。可能是Json，可以直接轉換為Json物件解析，可能是二進位制，可以做儲存或進一步的處理。
儲存資料

儲存形式多樣，可以存文字，可以存資料庫或者特定格式的檔案

在這裡插入圖片描述

Request

請求方式
- GET和POST
  - 區別就是GET把引數包含在URL中，POST通過request body傳遞引數
  - GET和POST兩種基本請求方法的區別
- HEAD、PUT、DELETE、OPTIONS等
請求URL

URL全稱統一資源定位符，如一個網頁文件、一張圖片、一個視訊等都可以用URL唯一來確定
請求頭

包含請求時的頭部資訊，如User-Agent、Host、Cookies等資訊
請求體

Response

響應狀態

有多種響應狀態，如200代表成功、301代表跳轉、404代表找不到頁面、502伺服器錯誤
響應頭

如類容型別、內容長度、伺服器資訊、設定Cookie等等
響應體

最主要的部分包含了請求資源的內容，如網頁HTML、圖片、二進位制等

request與response要和瀏覽器控制檯中network中資源對應學習

爬蟲抓取資料型別

網頁文字

HTML、Json等
圖片

二進位制資料，儲存為圖片格式
視訊

二進位制資料，儲存為視訊格式
其他

只要是能請求的，都能獲取

爬蟲解析方式

直接處理
Json解析
正則表示式
BeautifulSoup
PyQuery
XPath

JavaScript渲染問題

分析Ajax請求
Selenium/WebDriver
Splash
PyV8、Ghost.py

資料儲存

文字

純文字、Json、xml等
關係型資料庫

MySQL、Oracle、SQL Server等具有結構化表結構形式儲存
非關係型資料庫

如MongoDB、Redis等key-value形式儲存
二進位制檔案

如圖片、視訊、音訊等直接儲存成特定格式

Python爬蟲第二篇--基礎篇

爬蟲概念請求網站並提取資料的自動化程式。爬蟲基本流程發起請求通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的header等資訊，等待伺服器響應。獲取響應內容如果伺服器能正常響應，會得到一個Response，Respon

原創：聊Python小白如何系統自學成為Python大牛（基礎篇一）上

Python Python學習 Python開發 Python自學原創：聊Python小白如何系統自學成為Python大牛（基礎篇一）上支持原創本文章，由頭條py柯西發表，禁止轉載，希望大家支持原創歡迎大家點擊復制鏈接看原文https://www.toutiao.com/i654581

python爬蟲【第2篇】

multi 實現 from eat 進程 lun pid RR print 一、多進程 1.fork方法（os模塊,適用於Lunix系統） fork方法：調用1次，返回2次。原因：操作系統經當前進程（父進程）復制出一份進程（子進程），兩個進程幾乎完全相同，fork方法分別在

python3-開發面試題（python）6.23基礎篇（2）

漢字 2個特殊問題 ase 第一個 else () 判斷 1、請至少列舉5個 PEP8 規範（越多越好）。一、代碼編排 1、縮進。4個空格的縮進，不使用Tap,更不能混合使用Tap和空格 2、每行最大長度79，換行可以使用反斜杠，最好使用圓括號。換行點要在操作符

Python學習之路基礎篇--09Python基礎，初識函數

是什麽上一個 def 不常用 *args none 它的動態參數 ... 函數可以分為內置函數和自定義函數。這次關註的主要是自定義函數。定義函數之後，就可以在任何需要它的地方調用。 1 返回值的重要性　　返回值的3種情況　　　　　沒有返回值 ---- 返回Non

Python 2.表達式(基礎篇)

出現 als 次方邏輯與不存在算數運算新的 file 表格表達式 1.由一個或者多個變量夾雜數字和運算符組合成的一行代碼 2.通常會有一個返回值 3.運算符: 1.用於運算的符

Python大薈之基礎篇，花式列印99加法表！

“ 再簡單的問題也需要智慧。” 任何知識的學習，都要問題導向，盲目學習很快會遺忘，Python作為一門語言和工具，更是如此。我們先從簡單的九九加法表開始。 &nb

Python開發第一篇基礎篇(二)-------運算子與基本資料型別

對於python而言，一切事物都是物件，物件是基於類建立的，物件繼承了類的屬性，方法等特性　　一.int 　　　　首先我們來檢視一下int包含了哪些函式　　　　 # python3

Python開發第一篇基礎篇(下)

一.python種類　　　　1.1 Cpython 　　　　　　python官方版本，使用c語言實現，執行機制：先編譯，py(原始碼檔案)－>pyc(位元組碼檔案),最終執行時先將位元組碼轉換成機器碼，然後交給cpu執行；　　　　如果再次執行時，會優先尋找位元組碼檔案，若原始碼檔案被修改，則會

演算法競賽入門經典第二部分基礎篇

第6章資料結構和基礎指標的連結串列實現方式是，當前節點的next指向下一個節點，用陣列模擬就是 for（int i=next[0];i!=0;i=next[i]） i=next[i]；就是一條鏈。你有一個破損的鍵盤。鍵盤上的所有鍵都可以正常工作，但有時Home鍵或

【利用python進行資料分析——基礎篇】利用Python處理和分析Excel表中資料實戰

作為一個學習用Python進行資料分析的新手來說，通過本文來記錄分享一些我在用Python中的pandas、numpy來分析Excel表中資料的資料清洗和整理的工作，目的是熟悉numpy以及pandas基礎操作，所有操作利用Excel均可以方便實現。備註：本文中使用的是ipy

Python知識點整理（基礎篇）

Python 資料型別基礎字面常量所謂字面，就是我們在程式中直接以值的行式來操作、表現（可以對照變數）；所謂常量，是指這些值不能再被改變了。字面常量的種類：（1）整形整形數值預設是int型，例如：22,33 如果要表示一個long型，則加 l、L字尾。例如

Python Flask Restful API 基礎篇

目前Web應用這塊，restufl API用得非常普遍，因為，你手上的前端裝置五花八門，各種系統的手機，pad等等，而且網站和手機APP經常會有需要資源共享的時候。如果網站做個app，手機端再獨立一個app，要保持2者同步，估計做開發的要做死了。所以，RESTFUL

第二部分基礎篇-第6章 CC2530串列埠通訊-接收字串

1 理論分析當 1 寫入 UxCSR.RE 位時，在 UART 上資料接收就開始了。然後 UART 會在輸入引腳 RXDx 中尋找有效起始位，並且設定 UxCSR.ACTIVE 位為 1。當檢測出有效起始位時，收到的位元組就傳入到接收暫存器，UxCSR.RX

python如何執行程式--------基礎篇之一

python執行機制　　python作為一種動態語言，其實是一個直譯器軟體包。當Python執行指令碼時，在程式碼開始進行處理之前，Python還會執行一些步驟。第一步是編譯成所謂的“位元組碼”，如果Python程序擁有寫入許可權，將把程式的位元組碼儲存為一個以.pyc為副檔名的檔案，如果Python無

Python筆記之入門(基礎篇)

Python 3筆記之入門 Python簡單介紹　　Python 是一個高層次的結合瞭解釋性、編譯性、互動性和麵向物件的指令碼語言。Python 的設計具有很強的可讀性，相比其他語言經常使用英文關鍵字，其他語言的一些標點符號，它具有比其他語言更有特色語法結

第二部分基礎篇-第4章定時器-CC2530 中斷方式使用定時器T1

1 理論分析為定時器分配了一箇中斷向量。當下列定時器事件之一發生時，將產生一箇中斷請求：  計數器達到最終計數值（溢位或回到零）  輸入捕獲事件  輸出比較事件暫存器狀態暫存器 T1STAT 包括最終計數值事件和五個通道比較/捕獲

Python爬蟲爬取一篇韓寒新浪部落格

網上看到大神對Python爬蟲爬到很多有用的資訊，覺得很厲害，突然對想學Python爬蟲，雖然自己沒學過Python，但在網上找了一些資料看了一下，看到爬取韓寒新浪部落格的視訊，共三集，第一節講爬

python爬蟲入門---第三篇：自動下載圖片

等待部分 app class 請您 pictures string fin from 適用的圖片網站：美桌 import requests import re import urllib from bs4 import BeautifulSoup def get_ht

《嵌入式-STM32開發指南》第二部分基礎篇 -第1章 GPIO

1.1 GPIO工作原理要想實現流水燈，首先必須瞭解CPIO的工作原理。GPIO的基本結構如圖1-1。圖1-1 GPIO的基本結構 STM32 的 IO 口可以由軟體配置成如下 8 種模式：  輸入模式  浮空輸入：浮空（floating）就是邏輯

Python爬蟲第二篇--基礎篇

爬蟲概念

爬蟲基本流程

Request

Response

爬蟲抓取資料型別

爬蟲解析方式

JavaScript渲染問題

資料儲存

相關推薦