爬蟲與Python：（三）基本庫的使用——擴充套件:requests爬取陽光電影網原始碼

阿新 • • 發佈：2021-10-19

要求

本例主要希望讀者聯絡requests的使用，試著用它請求陽光電影網的首頁獲取頁面原始碼，並在控制檯打印出來，請求地址為：http://www.scyky.com/，需要實現的目標如下：

（1）構造一個訪問陽光電影網的請求（url , headers）。

（2）輸出請求狀態碼。

（3）輸出請求的原始碼。

（4）將原始碼列印到控制檯。

實現思路

輸入網址http://www.scyky.com/，進入陽光電影網首頁。
尋找header資訊。按【F12】鍵進入除錯模式，切換到【Network】選項卡，選擇一個請求的header，並複製相關資訊。
分析頁面原始碼，獲取編碼方式。在網頁中右擊，在彈出的快捷鍵選單中選擇【檢視網頁原始碼】選項進入原始碼頁面。可以發現，charset是utf-8。

依據獲取的資訊進行requests編碼。

請求原始碼

 1 import requests
 2 
 3 url = 'http://www.scyky.com/'
 4 # 設定請求頭
 5 headers = {
 6     'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
 7     'Accept-Encoding':'gzip, deflate',
 8     'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2 
',
 9     'Cache-Control':'max-age=0',
10     'Connection':'keep-alive',
11     'Cookie':'Hm_lvt_e9ddc99418411f9404610f615b91afa5=1634628491,1634628641; Hm_lpvt_e9ddc99418411f9404610f615b91afa5=1634628657; __gads=ID=9c53e50da4011ca3-2203967fb2cc00d6:T=1634628491:RT=1634628491:S=ALNI_MZHlYFvVNl5KojGNMC7Mucdw5TIrg 
',
12      'Host':'www.scyky.com',
13     'Upgrade-Insecure-Requests':'1',
14     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'
15 }
16 # 定義一個request物件
17 req = requests.get(url,headers=headers)
18 # 獲取狀態碼
19 print(req.status_code)
20 # 指定網頁的編碼方式
21 req.encoding = 'utf-8'
22 # 獲取網頁原始碼，將req.content返回的文字賦值給html變數，然後列印到控制檯
23 html = req.content
24 print(html)

有志者，事竟成，破釜沉舟，百二秦關終屬楚；苦心人，天不負，臥薪嚐膽，三千越甲可吞吳。

爬蟲與Python：（三）基本庫的使用——2.網路請求庫之request安裝

Python爬蟲中，除了urlib()外，還有一個使用的比較多的HTTP請求庫——requests。這個庫也是常用於HTTP請求模組，它使用Python語言編寫，可以方便的對網頁進行爬取，是學習Python比較好的HTTP請求模組。

爬蟲與Python：（三）基本庫的使用——3.網路請求庫之request使用介紹

爬蟲與Python：（三）基本庫的使用——4.re正則使用

正則表示式是一個特殊的字元序列，它能幫助使用者便捷地檢索一個字串是否與某種模式匹配。在爬蟲中我們經常會使用它來抓取到網頁原始碼或介面返回內容中匹配提取我們想要的資料。

爬蟲與Python：（三）基本庫的使用——6.XPath——XML中查詢資訊的語言

Path是一門在XML文件中查資訊的語言，XPath可用來XML文件中對元素和屬性進行遍歷。XPath是W3C XSLT 標準的主元素，並且XQuery和Xpointer都構建於XPath表達上。XPath在Python的爬蟲學習中，起著舉足輕重的作用，對比

爬蟲與Python：（三）基本庫的使用——擴充套件:requests爬取陽光電影網原始碼

要求本例主要希望讀者聯絡requests的使用，試著用它請求陽光電影網的首頁獲取頁面原始碼，並在控制檯打印出來，請求地址為：http://www.scyky.com/，需要實現的目標如下：

爬蟲與Python：（一）網路爬蟲概念篇——7.Session和Cookie

什麼是Session和Cookie? Session和Cookie是使用者保持HTTP連線狀態的技術。在網頁或APP等應用中基本都會使用到。在寫爬蟲的時候，也經常會涉及需要攜帶Cookie應對一般的反爬，接下來會對Session和Cookie的基本原理做

爬蟲與Python：（二）Python基礎篇——5.字串

資料型別中包含字串。這裡我們將會拓展一些有字串的有關的基礎知識。 Python中訪問字串的值

爬蟲與Python：（二）Python基礎篇——6.編碼

字串也是一種資料型別，但是字串比較特殊的還是編碼問題。因為計算機只能處理數字，如果要處理文字，就必須吧文字轉化為數字。最早計算機在設計時採用了8個位元（bit）作為位元組（Byte），所以，一個位元組能表示的

爬蟲與Python：（二）Python基礎篇——7.列表

序列是Python中最基本的資料結構。序列中的每個元素都分配一個數字，即它的位置或索引，第一個索引時0，第二個索引是1，以此類推Python有6個序列內建型別，但最常見的是列表和元組。許可都可以進行的操作包括索引、

爬蟲與Python：（二）Python基礎篇——9.字典

字典是一種可變容器模型，且可儲存任意型別的物件，用{} 標識。字典是一個無序的鍵和值的集合——key:value 。

爬蟲與Python：（二）Python基礎篇——10.條件語句

語法 Python條件語句是通過一條或多條語句執行結果（True或False）來決定執行的程式碼塊。使用if語句來進行判斷，在Python中if語句一般格式如下：

爬蟲與Python：（二）Python基礎篇——11.迴圈語句

Python中迴圈語句有for和while。Python迴圈語句控制結構如圖1-25所示。 for迴圈在Python中for迴圈可以變數任何序列的專案，如一個列表或一個字串。for迴圈一般格式如下：

爬蟲與Python：（二）Python基礎篇——12.函式

函式是組織好的、可以重複使用的、用來實現單一或相關功能的程式碼段。函式能提高應用的模組性和程式碼的重複利用率。Python提供了許多內建函式。如print()，但也可以自己建立函式，這被稱為使用者自定義函式。

爬蟲與Python：（二）Python基礎篇——13.類

Python中的類提供了面向物件變成的所有基本功能：類的繼承機制允許多個基類，派生類可以覆蓋基類中的任何方法，方法中呼叫類的同名方法。以下是本文將要學習的內容：

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

如何用用Python模擬Ajax請求，我們仍然以飛常準大資料為例（https://data.variflight.com/analytics/CodeQuery），通過查詢北京機場的三個字母碼“PEK”來請求獲取它的資料，把北京機場的資訊提取出來。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——1.什麼是Pandas

什麼是Pandas Pandas 是 Python 語言的一個擴充套件程式庫，用於資料分析。 Pandas 是一個開放原始碼、BSD 許可的庫，提供高效能、易於使用的資料結構和資料分析工具。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——3.資料結構Series

1. 定義 Pandas Series 類似表格中的一個列（column），類似於一維陣列，可以儲存任何資料型別。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——4.資料結構DataFrame

1. 定義 DataFrame 是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 組成的字典（共同用一個索引）。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——5.CSV檔案

1. 定義 CSV（Comma-Separated Values，逗號分隔值，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。

爬蟲與Python：（四）爬蟲進階擴充套件之Pandas——6.JSON化

JSON（JavaScript Object Notation，JavaScript 物件表示法），是儲存和交換文字資訊的語法，類似 XML。

爬蟲與Python：（三）基本庫的使用——擴充套件:requests爬取陽光電影網原始碼

要求

實現思路

請求原始碼

相關推薦