1. 程式人生 > 實用技巧 >一起學爬蟲(Python) — 02

一起學爬蟲(Python) — 02

此文轉載自:https://blog.csdn.net/BcXbHello/article/details/110200611

今天要學會爬

requests模組

什麼是requests模組

大家好鴨,今天是寫部落格的第二天,昨天寫的結果只有不幾個人看了呢,不過還有兩個小夥伴點讚了,真的是萬分感謝!!!

希望各位看客能多多提意見還有提問題哦,小澤都會努力解答的~
咳咳,開始今天的正題:requests模組。
如果學過python基礎的話就會知道模組是個什麼東西,沒有學過直接來這裡看的呢,也應該大致知道模組是個什麼東東,就是類似於數學公式的存在,不需要繁瑣的計算,直接套用公式的那種感覺。
那麼,什麼是requests模組呢?
python自帶的一款基於網路請求的模組,功能強大,效率極高!
一個字,牛逼!!
總之你不會寫不理解的東東,這個模組統統都給你解決嘍,你只需要一句話,一個詞就可以直接呼叫一大堆神奇的指令~

如何安裝requests模組

環境安裝:

    pip install requests


我的系統是win7的,不過推薦各位用win10系統,在下是因為貧窮…咳咳,還有如果用的是pycharm的話,安裝模組要在……


找到上圖所示的目錄Project–>Project interpreter,然後點選右上角的加號。

搜尋requests,然後點選左下角的install Package進行下載,成功了下面會提示你綠了(有個綠條條)
這裡我已經下載過了,所以各位自行下載吧~

怎麼用requests模組

如果上面的步驟都準備好了,那麼恭喜你,可以開始爬了!
當然可能會有些小夥伴會報錯呀報錯呀報錯呀之類的,沒事,把問題留言一下,小澤看到了會及時回覆的~
那麼,光看不做可不行,知道了理論知識,也要會實踐,對吧。
在那之前先了解一下requests模組幹事的四個步驟,然後敲程式碼的時候要想著這四個步驟,一步一步來,穩住,不要浪!
1.指定url(發現敵軍位置)
2.發起請求(請求使用義大利炮)
3.獲取響應資料(開炮!)
4.持久化儲存(收拾戰場)


後面的比喻可能不那麼精準哈…不過大概意思就是這樣,要知道,requests模組是模擬我們去上網,所以要從我們自己的角度去給requests模組施加命令,不能一步登天哈。

實戰!

首先啊,不管幹什麼,要先記住一件事,匯入模組!

#匯入requests模組
import requests

1.指定url
那我們隨便找一個網站去試一試,隨便找啊,比如說百度吧。
www.baidu.com

#1:指定url
url='https://www.baidu.com/'

各位會不會覺得百度很厲害,一定爬不下來?
給我爬!

#2:發起請求(get方法會返回一個響應物件)
response = requests.
get(url=url)

這一步大家應該都看得懂吧,requests.get()是一個方法,裡面要指定url,爬也得爬對地方對吧。response則是接受了requests.get()方法爬取回來的資料,就是響應物件,很專業的名詞啊,但是沒關係,知道就好了。

#3:獲取響應資料
page_text = response.text

到了第三步嘍,這個時候已經爬回東西來了,進去了又出來,那還進不進去都無所謂了,畢竟東西已經爬到了,接下來就是把這個東西轉換成我們能看得懂的資料,當然你也可以自己把response列印一下,看一看對吧,要多動手實踐才能知道為什麼要這麼做的,不要光我說什麼就是什麼了。
.text就是把response轉換成了文字格式,然後又把資料給了page_text,這裡為什麼要用page_text呢,因為高階啊!別人看不懂就會顯得很高階~

#4:持久化儲存
with open('./baidu.html','w',encoding='utf-8') as fp:
 fp.write(page_text)
print('爬完了')

最後一步,把我們爬取到的東西儲存下來,這個大家應該都能理解,突然覺得很簡單吧,這就是爬蟲!
但是程式設計師會讓你這麼簡單的爬下來嗎那些重要資料嗎?答案肯定是No!所以為了爬取美女圖片,我們要更加努力學習!
明天,我們就來使自己更強大!
至少得爬取到我們想要的東西,對吧。
那今天就到這裡啦,各位看官早點睡吧,晚安~