Python3爬蟲：微博使用者爬蟲

阿新 • • 發佈：2019-01-01

此次爬蟲要實現的是爬取某個微博使用者的關注和粉絲的使用者公開基本資訊，包括使用者暱稱、id、性別、所在地和其粉絲數量，然後將爬取下來的資料儲存在MongoDB資料庫中，最後再生成幾個圖表來簡單分析一下我們得到的資料。

一、具體步驟：

然後檢視其關注的使用者，開啟開發者工具，切換到XHR過濾器，一直下拉列表，就會看到有很多的Ajax請求。這些請求的型別是Get型別，返回結果是Json格式，展開之後就能看到有很多使用者的資訊。

這些請求有兩個引數，containerid和page，通過改變page的數值，我們就能得到更多的請求了。獲取其粉絲的使用者資訊的步驟是一樣的，除了請求的連結不同之外，引數也不同，修改一下就可以了。

由於這些請求返回的結果裡只有使用者的名稱和id等資訊，並沒有包含使用者的性別等基本資料，所以我們點進某個人的微博，然後檢視其基本資料，比如這個，開啟開發者工具，可以找到下面這個請求：

由於這個人的id是6857214856，因此我們可以發現當我們得到一個人的id的時候，就可以構造獲取基本資料的連結和引數了，相關程式碼如下（uid就是使用者的id）：

1 uid_str = "230283" + str(uid)

2 url = "https://m.weibo.cn/api/container/getIndex?containerid={}_-_INFO&title=%E5%9F%BA%E6%9C%AC%E8%B5%84%E6%96%99&luicode=10000011&lfid={}&featurecode=10000326".format(uid_str, uid_str)

3 data = {

4 "containerid": "{}_-_INFO".format(uid_str),

5 "title": "基本資料",

6 "luicode": 10000011,

7 "lfid": int(uid_str),

8 "featurecode": 10000326

9 }

然後這個返回的結果也是Json格式，提取起來就很方便，因為很多人的基本資料都不怎麼全，所以我提取了使用者暱稱、性別、所在地和其粉絲數量。而且因為一些賬號並非個人賬號，就沒有性別資訊，對於這些賬號，我選擇將其性別設定為男性。不過在爬取的時候，我發現一個問題，就是當頁數超過250的時候，返回的結果就已經沒有內容了，也就是說這個方法最多隻能爬250頁。對於爬取下來的使用者資訊，全都儲存在MongoDB資料庫中，然後在爬取結束之後，讀取這些資訊並繪製了幾個圖表，分別繪製了男女比例扇形圖、使用者所在地分佈圖和使用者的粉絲數量柱狀圖。

二、主要程式碼：

由於第一頁返回的結果和其他頁返回的結果格式是不同的，所以要分別進行解析，而且因為部分結果的json格式不同，所以可能報錯，因此採用了try...except...把出錯原因打印出來。

爬取第一頁並解析的程式碼如下：

1 def get_and_parse1(url):

2 res = requests.get(url)

3 cards = res.json()['data']['cards']

4 info_list = []

5 try:

6 for i in cards:

7 if "title" not in i:

8 for j in i['card_group'][1]['users']:

9 user_name = j['screen_name'] # 使用者名稱

10 user_id = j['id'] # 使用者id

11 fans_count = j['followers_count'] # 粉絲數量

12 sex, add = get_user_info(user_id)

13 info = {

14 "使用者名稱": user_name,

15 "性別": sex,

16 "所在地": add,

17 "粉絲數": fans_count,

18 }

19 info_list.append(info)

20 else:

21 for j in i['card_group']:

22 user_name = j['user']['screen_name'] # 使用者名稱

23 user_id = j['user']['id'] # 使用者id

24 fans_count = j['user']['followers_count'] # 粉絲數量

25 sex, add = get_user_info(user_id)

26 info = {

27 "使用者名稱": user_name,

28 "性別": sex,

29 "所在地": add,

30 "粉絲數": fans_count,

31 }

32 info_list.append(info)

33 if "followers" in url:

34 print("第1頁關注資訊爬取完畢...")

35 else:

36 print("第1頁粉絲資訊爬取完畢...")

37 save_info(info_list)

38 except Exception as e:

39 print(e)

爬取其他頁並解析的程式碼如下：

1 def get_and_parse2(url, data):

2 res = requests.get(url, headers=get_random_ua(), data=data)

3 sleep(3)

4 info_list = []

5 try:

6 if 'cards' in res.json()['data']:

7 card_group = res.json()['data']['cards'][0]['card_group']

8 else:

9 card_group = res.json()['data']['cardlistInfo']['cards'][0]['card_group']

10 for card in card_group:

11 user_name = card['user']['screen_name'] # 使用者名稱

12 user_id = card['user']['id'] # 使用者id

13 fans_count = card['user']['followers_count'] # 粉絲數量

14 sex, add = get_user_info(user_id)

15 info = {

16 "使用者名稱": user_name,

17 "性別": sex,

18 "所在地": add,

19 "粉絲數": fans_count,

20 }

21 info_list.append(info)

22 if "page" in data:

23 print("第{}頁關注資訊爬取完畢...".format(data['page']))

24 else:

25 print("第{}頁粉絲資訊爬取完畢...".format(data['since_id']))

26 save_info(info_list)

27 except Exception as e:

28 print(e)

三、執行結果：

在執行的時候可能會出現各種各樣的錯誤，有的時候返回結果為空，有的時候解析出錯，不過還是能成功爬取大部分資料的，這裡就放一下最後生成的三張圖片吧。

Python3爬蟲：微博使用者爬蟲

Python3爬蟲：微博使用者爬蟲

【Python3爬蟲】微博使用者爬蟲

Python3+Selenium爬蟲實戰：微博粉絲榜水分大揭祕

觀察者模式：微博關注通知功能

【python爬蟲-爬微博】爬取王思聰所有微博資料

楊超越微博爬蟲（微博文字+圖片）粉絲資訊待續

【爬蟲初探】新浪微博搜尋爬蟲實現

新浪微博評論爬蟲小DEMO

新浪微博粉絲爬蟲-wap站只能爬取20頁-

新浪微博粉絲——爬蟲漲粉技巧

python爬蟲-模擬微博登入

第32天：微博發布動態

第2次作業：微博案例分析

新浪微博技術分享：微博實時直播答題的百萬高併發架構實踐

python3新浪微博API介面

Python爬蟲：一些常用的爬蟲技巧總結

fastText(三)：微博短文字下fastText的應用（二）

fastText(二)：微博短文字下fastText的應用（一）

sencha touch例項：微博設定介面

從優化效能到應對峰值流量：微博快取服務化的設計與實踐

Python3爬蟲：微博使用者爬蟲

相關推薦