使用Python爬蟲爬取小紅書完完整整的全過程

阿新 • • 發佈：2021-01-21

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

以下文章來源於Python進擊者，作者kuls

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542

小紅書

首先，我們開啟之前大家配置好的charles

我們來簡單抓包一下小紅書小程式(注意這裡是小程式，不是app)

不選擇app的原因是，小紅書的App有點難度，參照網上的一些思路，還是選擇了小程式

1、通過charles抓包對小程式進行分析

使用Python爬蟲爬取小紅書完完整整的全過程

我們開啟小紅書小程式，隨意搜尋一個關鍵詞

使用Python爬蟲爬取小紅書完完整整的全過程

按照我的路徑，你可以發現列表中的資料已經被我們抓到了。

但是你以為這就結束了？

不不不

使用Python爬蟲爬取小紅書完完整整的全過程

通過這次抓包，我們知道了可以通過這個api介面獲取到資料

但是當我們把爬蟲都寫好時，我們會發現headers裡面有兩個很難處理的引數

"authorization"和"x-sign"

這兩個玩意，一直在變化，而且不知道從何獲取。

所以

2、使用mitmproxy來進行抓包

其實通過charles抓包，整體的抓取思路我們已經清晰

就是獲取到"authorization"和"x-sign"兩個引數，然後對url進行get請求

這裡用到的mitmproxy，其實和charles差不多，都是抓包工具

但是mitmproxy能夠跟Python一起執行

這就舒服很多啊

簡單給大家舉例子

 def request(flow):
   print(flow.request.headers)

在mitmproxy中提供這樣的方法給我們，我們可以通過request物件擷取到request headers中的url、cookies、host、method、port、scheme等屬性

這不正是我們想要的嗎？

我們直接擷取"authorization"和"x-sign" 這兩個引數

然後往headers裡填入

整個就完成了。

以上是我們整個的爬取思路，下面給大家講解一下程式碼怎麼寫

其實程式碼寫起來並不難

首先，我們必須擷取到搜尋api的流，這樣我們才能夠對其進行獲取資訊

if 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' in flow.request.url:

我們通過判斷flow的request裡面是否存在搜尋api的url

來確定我們需要抓取的請求

authorization=re.findall("authorization',.*?'(.*?)'\)",str(flow.request.headers))[0]
x_sign=re.findall("x-sign',str(flow.request.headers))[0]
url=flow.request.url

通過上述程式碼，我們就能夠把最關鍵的三個引數拿到手了，接下來就是一些普通的解析json了。

最終，我們可以拿到自己想要的資料了

使用Python爬蟲爬取小紅書完完整整的全過程

如果你想要獲取到單篇資料，可以拿到文章id後抓取

"https://www.xiaohongshu.com/discovery/item/" + str(id)

使用Python爬蟲爬取小紅書完完整整的全過程

這個頁面headers裡需要帶有cookie，你隨意訪問一個網站都可以拿到cookie，目前看來好像是固定的

最後，可以把資料放入csv

使用Python爬蟲爬取小紅書完完整整的全過程

總結

其實小紅書爬蟲的抓取並不是特別的難，關鍵在於思路以及使用的方法是什麼。

到此這篇關於使用Python爬蟲爬取小紅書完完整整的全過程的文章就介紹到這了,更多相關Python爬取小紅書內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

使用Python爬蟲爬取小紅書完完整整的全過程

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

帶著大家用Python爬取小紅書，完完整整的全過程

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

小紅書資料採集教程，使用協程方式爬取小紅書熱門頁下的資料

小紅書資料採集教程，使用協程方式爬取小紅書熱門頁下的資料 from gevent import monkey

教你如何使用Python爬蟲爬取美團美食資料！外賣小專家的報到了！

1.分析美團美食網頁的url引數構成 1）搜尋要點美團美食，地址：北京，搜尋關鍵詞：火鍋

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲爬取監控教務系統的思路詳解

這幾天考了大大小小几門課，教務系統又沒有成績通知功能，為了急切想知道自己掛了多少門，於是我寫下這個指令碼。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取杭州24時溫度並展示操作示例

本文例項講述了Python爬蟲爬取杭州24時溫度並展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

Python爬蟲爬取新聞資訊案例詳解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲爬取糗事百科段子例項分享

大家好，前面入門已經說了那麼多基礎知識了，下面我們做幾個實戰專案來挑戰一下吧。那麼這次為大家帶來，Python爬取糗事百科的小段子的例子。

Python爬蟲爬取微信朋友圈

接下來，我們將實現微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 來監聽微信朋友圈的介面資料，這是無法實現爬取的，因為資料都是被加密的。而 Appium 不同，Appium 作為一個自動化測試工具可以直接模擬 App

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

Python爬蟲爬取中國古詩詞網上的名句

執行截圖： 1 import requests 2 from lxml import etree 3 from urllib import request 4 5 # 全域性變數（請求頭+檔案IO物件）

使用Python爬蟲爬取小紅書完完整整的全過程

前言

小紅書

總結

相關推薦