Python爬蟲實驗報告之Big_Homework2_Douyu

阿新 • • 發佈：2020-09-03

實驗內容：

　　爬取鬥魚視訊某一板塊的內容

　　採集欄位：房間名、主播名、分類資訊、熱度

流程圖：

原始碼：

 1 import requests
 2 from lxml import etree
 3 from urllib import request
 4 import json
 5 
 6 # 全域性變數（請求頭+檔案io物件）
 7 headers = {
 8     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44 
'}
 9 file = open('./鬥魚.txt', 'w', encoding='utf-8')
10 
11 
12 # 採集前端原始碼
13 def index():
14     for num in range(1, 21):
15         base_url = 'https://www.douyu.com/gapi/rkc/directory/mixList/2_181/{}'.format(num)  # 翻頁
16         print('正在寫入', base_url, '中的資料資訊...')
17         response = requests.get(base_url, headers=headers)
 
18         response.encoding = 'uft-8'  # 解碼
19         jsons = response.text
20         # print(type(jsons))#jsons的資料型別是str
21         clean(jsons)  # 清洗資料函式
22 
23 
24 # 清洗資料
25 def clean(jsons):
26     dicts = json.loads(jsons)  # 將jsons的資料型別由字元型轉換成字典型
27     # print(dicts)
28     info_list = dicts[' 
data']['rl']  # 提取主要資訊
29     printt(info_list)
30 
31 
32 # 列印資料資訊
33 def printt(info_list):
34     for i in info_list:
35         room_number = i['rn']
36         # print(room_number)
37         homeowner = i['nn']
38         # print(homeowner)
39         heat = i['ol']
40         # print(heat)
41         C2name = i['c2name']
42         # 整合資料資訊
43         full_info = C2name + '房間號：' + room_number + '\t' + '房主：' + homeowner + '\t' + '熱度：' + str(heat)
44         # 寫入檔案
45         file.write(full_info + '\n')
46 
47 
48 if __name__ == '__main__':
49     index()
50     file.close()

View Code

實驗過程中的部分截圖：

實驗心得：

腦子裡回憶著今天上午所學的內容，指下卻一刻都沒停過，找可供翻頁的網址，解碼，轉換，清洗提取資訊，整合成自己所樂意看到的資訊樣式，看到最後run出來的鬥魚.txt文件，真的是滿滿的成就感。雖然連著搞了2個小時左右叭，卻毫無疲憊之意，開心程式設計莫過於此！

Python爬蟲實驗報告之Big_Homework2_Douyu

實驗內容：　　爬取鬥魚視訊某一板塊的內容　　採集欄位：房間名、主播名、分類資訊、熱度

Python爬蟲實驗報告之Big_Homework1_Lishipin

實驗目的：爬取梨視訊網站某模組全部資訊；欄位資訊為：視訊標題、作者、點贊數，純視訊連結，並且存入txt文件。

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

Python爬蟲過程解析之多執行緒獲取小米應用商店資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲進階之爬取某視訊並下載的實現

這幾天在家閒得無聊，意外的挖掘到了一個資源網站（你懂得），但是網速慢廣告多下載不了種種原因讓我突然萌生了爬蟲的想法。

python 爬蟲程式碼_python之路(一)_爬蟲—爬一下網頁程式碼輸出到檔案

技術標籤：python 爬蟲程式碼python爬蟲萬能程式碼python爬蟲程式碼python爬蟲程式碼大全python簡單爬蟲程式碼python輸出txt檔案

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲新手入門之初學lxml庫

1.爬蟲是什麼所謂爬蟲，就是按照一定的規則，自動的從網路中抓取資訊的程式或者指令碼。全球資訊網就像一個巨大的蜘蛛網，我們的爬蟲就是上面的一個蜘蛛，不斷的去抓取我們需要的資訊。

20193312朱文昱python綜合實驗報告

20193312 2021-6 《Python程式設計》綜合實驗報告課程：《Python程式設計》班級： 1933

python爬蟲 - js逆向之猿人學第十二題

分析開啟介面：翻頁，找介面：看引數：也是m，不多說，看到最後有【=】，先猜一波是不是base64，拿著去解碼：

python爬蟲 - js逆向之猿人學第十三題

繼續，不多說分析開啟網站：然後抓取介面：檢視請求引數，發現沒有什麼特別的，就是多了個cookie

python爬蟲 - js逆向之某網站逆向分析（上）-- 突破某網的debug檢測

這段的意思就是，先記錄一個時間before，然後啟動debugger，此時就是上面我們已經跳過debugger那裡，然後再生成一個時間after，用這兩個時間相減，如果大於50，它就任務你還是在嘗試除錯，所以仍然出現同樣的提示

python爬蟲 - js逆向之woff字型反爬破解

本篇博文的主題就是處理字型反爬的，其實這種網上已經很多了，那為什麼我還要寫呢？因為無聊啊，最近是真沒啥事，並且我看了下，還是有點難度的，然後這個字型反爬系列會出兩到三篇博文，針對市面上主流的字型反爬

python爬蟲 - js逆向之svg字型反爬破解

前言同樣的，接上一篇 python爬蟲 - js逆向之woff字型反爬破解，而且也是同一個站的資料，只是是不同的反爬

python爬蟲 - js逆向之猿人學第十六題webpack簡版

好久沒有寫猿人學的分析了，今天來分析一波開啟網址：同樣的，也很輕易的拿到介面，

python爬蟲 - js逆向之猿人學第十七題http2.0

續幹17題，就是個http2.0協議，有關這個協議的，我之前就出過相關的文章：python爬蟲 - 爬蟲之針對http2.0的某網站爬取

Python爬蟲實戰，DecryptLogin模組，Python模擬登入之生成QQ個人專屬報告

前言這次我們藉助自己開源的DecryptLogin庫做一件有趣的事，生成QQ個人專屬報告。

python爬蟲之遍歷單個域名

即使你沒聽說過“維基百科六度分隔理論”，也很可能聽過“凱文 • 貝肯（Kevin Bacon）的六度分隔值遊戲”。在這兩個遊戲中，目標都是把兩個不相干的主題（在前一種情況中是相互連結的維基百科詞條，而在後一