只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

阿新 • • 發佈：2020-07-21

前言

抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

本篇文章內容：

1、系統分析網頁性質

2、正則提取資料（難點）

3、海量音訊資料儲存

環境介紹：

python 3.6
pycharm
requests
re

爬蟲的一般思路

1、分析目標網頁，確定爬取的url路徑，headers引數

2、傳送請求 -- requests 模擬瀏覽器傳送請求，獲取響應資料

3、解析資料 -- 正則表示式

4、儲存資料 -- 儲存在目標資料夾中

步驟：

1、匯入工具

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

2、分析目標網頁，確定爬取的url路徑，headers引數

base_url = 'http://douyin.bm8.com.cn/d_1.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36 
'}

3、傳送請求 -- requests 模擬瀏覽器傳送請求，獲取響應資料

response = requests.get(url=base_url, headers=headers)
html_data = response.text

4、解析資料 -- 正則表示式

pattern = re.compile('onclick="open1\(\'(.*?)\',\'(.*?)\',\'\'\)')
result = pattern.findall(html_data)
print(result)

5、構建一個for迴圈

for page in range(8, 10):
     
print('===================正在取第{}頁資料================='.format(page))
    # 1、分析目標網頁，確定爬取的url路徑，headers引數
    base_url = 'http://douyin.bm8.com.cn/d_{}.html'.format(page)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

6、處理檔名非法字元

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title

7、儲存資料 -- 儲存在目標資料夾中

for title, url in result:
        # 請求抖音視訊資料
        data = requests.get(url=url, headers=headers).content

        new_title = change_title(title)
        with open('videos\\' + new_title + '.mp4', mode='wb') as f:
            f.write(data)
            print('儲存完成:', title)

只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

前言抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

演算法資料結構 | 只要30行程式碼，實現快速匹配字串的KMP演算法

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是演算法資料結構專題的第29篇文章，我們來聊一個新的字串匹配演算法——KMP。

什麼？！只用30行程式碼就能建立一個JavaScript的神經網路？

在本文中，我將向你展示如何使用Synaptic.js來建立和訓練神經網路，它允許你在Node.js和瀏覽器中進行深度學習。我們將建立最簡單的神經網路:一個能夠解決XOR方程的問題。

資料結構 | 30行程式碼，手把手帶你實現Trie樹

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是演演算法和資料結構專題的第28篇文章，我們一起來聊聊一個經典的字串處理資料結構——Trie。

基於python的鏈家小區房價爬取——僅需60行程式碼！

簡介首先開啟相關網頁（北京鏈家小區資訊）。注意本部落格的程式碼適用於爬取某個城市的小區二手房房價資訊。如果需要爬取其他資訊，可修改程式碼，鏈家的資料獲取的基本邏輯都差不多。

30行程式碼爬取英雄聯盟全英雄面板

此文轉載自：https://blog.csdn.net/qq_42453117/article/details/109961751#commentBox 距離上次寫爬蟲文章已經過了許久了，之前寫過一篇20行Python程式碼爬取王者榮耀全英雄面板，反響強烈，其中有很多同學希

用Python自動清理電腦內重複檔案，只要10行程式碼就夠了

給定一個資料夾，使用Python檢查給定資料夾下有無檔案重複，若存在重複則刪除

用Python自動清理電腦內重複檔案,只要10行程式碼(自動指令碼)

給定一個資料夾，使用Python檢查給定資料夾下有無檔案重複，若存在重複則刪除

idea程式碼補全宣告程式碼_程式碼補全快餐教程(1) - 30行程式碼見證奇蹟

技術標籤：idea程式碼補全宣告程式碼程式碼補全快餐教程(1) - 30行程式碼見證奇蹟

原來寫刮刮卡這麼簡單，幾行程式碼就搞定，你來你也行，謝謝惠顧！

技術標籤：javascriptcanvasjavascriptcanvas 利用屬性屬性 globalCompositeOperation，設定值為 destination-out，後繪製的圖形會擦除與先繪製圖形重疊的部分

30行程式碼實現螞蟻森林自動偷能量

技術標籤：pythonandroid自動化文章目錄 Uiautomator2的安裝和使用具體實現如何開啟支付寶並進入螞蟻森林？收能量如何停止

6行程式碼！用Python將PDF轉為word

pdf轉word應該算是一個很常見的需求了網上有些免費的轉換工具，一方面不安全，有檔案洩露風險，另一方面有免費轉換的次數限制。

原始碼教學：教你 30 行程式碼實現 ddt 模組

前言用 python 做過自動化的小夥伴，大多數都應該使用過 ddt 這個模組，不可否認 ddt 這個模組確實挺好用，可以自動根據用例資料，來生成測試用例，能夠很方便的將測試資料和測試用例執行的邏輯進行分離。接下來就

女友半夜加班發自拍Python男友用30行程式碼發現祕密

事情是這樣的正準備下班的python開發小哥哥接到女朋友今晚要加班的電話並給他發來一張背景模糊的自拍照

三步教會你製作資料視覺化大屏，領導不看重你都難！

在這個大資料的時代，各行各業對於資料的價值重視程度與日俱增，但是想要把資料價值最大化的發揮出來，就得需要對資料進行採集、融合、分析、資料視覺化，而能讓資料價值更直觀展現的手段就是要資料視覺化，資料視覺

Higress 實戰：30 行程式碼寫一個 Wasm Go外掛

作者：澄潭、如葑前言在 11 月 15 號的直播《Higress 開源背後的發展歷程和上手 Demo 演示》中，為大家演示了 Higress 的 Wasm 外掛如何面向 Ingress 資源進行配置生效，本文對當天的 Demo 進行一個回顧，並說明

瀑布流佈局不到30行程式碼實現（JavaScript + absolute）支援懶載入

@ 目錄前言一、使用css實現瀑布流佈局 1.flex 佈局 2.column-count 多欄佈局 3.grid 網格佈局

【PS技能+】簡單幾步教會你使用PS製作GIF動圖

開始開啟PS軟體，依次點選檔案指令碼將檔案載入堆疊進入圖片檔案匯入介面，點選瀏覽，使用型別為：檔案，可選擇多種製作動圖的圖片素材；使用型別為：資料夾，可選擇儲存所有圖片素材的資料夾。

python爬取喜馬拉雅FM雪中悍刀行整本有聲小說!下次教你們爬付費！

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

簡單！五分鐘教會你如何用python開發能竊取攝像頭照片的軟體

python竊取攝像頭照片原始碼+獲取授權碼方法+py打包成exe 教你怎麼用python做一個自己的能竊取攝像頭照片的軟體。