鬥魚直播實時資料爬取

阿新 • • 發佈：2019-01-26

思路

1, 解析URL

頁面解析

2, 利用爬蟲神器 bs4 和正則表示式得到想要的資訊;
3, 進庫和本地儲存

DJango後臺展示和本地CSV(賣相太差，不發了)

* 儲存本地的CSV 直接執行 DySpyder().summary_data180() 即可*

直接上程式碼

# -*- coding: utf-8 -*-
import os
import re
import django
import urllib.request as ur

class DySpyder():

    def __init__(self):
        pass 


    def open_url(self, url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
        req = ur.Request(url=url, headers=headers)  # python2，urllib.request()
        response = ur.urlopen(req)  # python2，urllib2.urlopen()
        return response.read().decode('utf-8' 
)

    def tv_spyder(self):
        ## 通過 xhr 請求可以看到
        url = "https://www.douyu.com/directory/all/?page=1&isAjax=1"
        data = self.open_url(url)
        from bs4 import BeautifulSoup
        cate = ['', 'serach_lastli', 'last','lastserach_lastli']  # - - s- l - ll 6loop
        soup1 = BeautifulSoup(data, 'html.parser' 
)
        soup = soup1.find("ul", id='live-list-contentbox')
        res = []
        for c in cate:
            tmp = soup.findAll('li', c)
            res.extend(tmp)
        return res

    import datetime
    def set_data(self, x):
        import datetime
        res = {}
        # title.__init__
        title0 = str(x.find("h3").next_element)
        spans = x.findAll(["span"])
        # basic info to the link
        tag, dy_name, dy_num = tuple([s.next_element for s in spans][2:5])
        parterb = r'''.*<img data-original=(.*?) height="163" src=(.*?) width="283"/>.*'''
        # the urls of img and gif
        img, gif = re.findall(parterb, repr(x))[0]
        p2 = r'''.*a class="play-list-link" (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?) (.*?)=(.*?)>.*'''
        t1 = [x for x in re.findall(p2, repr(x))][0]
        # the head of link-info
        for i in range(int(len(t1)/2 - 1)):
            res.setdefault(t1[2*i], t1[2*i+1])
        res.setdefault("dt", datetime.datetime.today())
        res.setdefault('tag', tag)
        res.setdefault('dy_name', dy_name)
        res.setdefault('dy_num', dy_num)
        res.setdefault('title0', title0)
        res.setdefault('img', img)
        res.setdefault('gif', gif)

        return res

    def summary_data180(self):
        l = [self.set_data(x) for x in self.tv_spyder()]
        import pandas as pd
        df_tmp = pd.DataFrame(l)
        df_tmp.to_csv("C:\\Users\\lenovo\\Desktop\\dy180.csv")
        return df_tmp

    #print(summary_data180())

    def main(self):
        os.environ.setdefault("DJANGO_SETTINGS_MODULE", "minicms.settings")
        django.setup()

        from tv.models import Info
        from django.utils import timezone

        df = self.summary_data180()
        print(df.columns)
        import numpy as np
        array2 = np.array(df)
        for i in range(len(df)):
            Info.objects.create(data_rid=array2[i][0],
                                data_rpos=array2[i][1],
                                data_sid=array2[i][2],
                                data_sub_rt=array2[i][3],
                                data_tid=array2[i][4],
                                dt=timezone.now(), ##修改了時間
                                dy_name=array2[i][6],
                                dy_num=array2[i][7],
                                gif=array2[i][8],
                                href=array2[i][9],
                                img=array2[i][10],
                                tag=array2[i][11],
                                target=array2[i][12],
                                title0=array2[i][13]
                                )
        print("執行完畢")


dyspyder = DySpyder()
#dyspyder.main()

沒有 Django 模板, 爬取所有的模板2

import os
import re
import urllib.request as ur

class DySpyder():

    def __init__(self, url):
        self.url = url

    def open_url(self, url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
        req = ur.Request(url=url, headers=headers)  # python2，urllib.request()
        response = ur.urlopen(req)  # python2，urllib2.urlopen()
        return response.read().decode('utf-8')

    def from_url_get_all_lis(self):
        data = self.open_url(self.url)
        from bs4 import BeautifulSoup
        soup1 = BeautifulSoup(data, 'html.parser')
        soup = soup1.findAll("li")
        return soup

    def tv_spyder(self, x):
        rid = re.findall(""".*?data-rid="(.*?)".*""", str(x))[0]
        title = re.findall(""".*?title=(.*?)>.*""", str(x))[0]
        href = re.findall(""".*?href="(.*?)".*""", str(x))[0]
        pic = re.findall('''.*?<img data-original="(.*?)".*''', str(x))[0]
        tag = re.findall('''.*<span class="tag ellipsis">(.*?)</span>.*''', str(x))[0]
        name = re.findall('''.*<span class="dy-name ellipsis fl">(.*?)</span>.*''', str(x))[0]
        see_num = re.findall('''.*<span class="dy-num fr".*?>(.*?)</span>.*''', str(x))[0]
        t = rid, pic, title, tag, name, see_num, href
        return t

def get_url(page):
    return "https://www.douyu.com/directory/all?page="+ str(page) +"&isAjax=1"

res1 = []
for i in [j+1 for j in range(20)]:
    douyu = DySpyder(get_url(i))
    for x in douyu.from_url_get_all_lis():
        try:
            res1.append(list(douyu.tv_spyder(x)))
        except:
            print(x)
import pandas as pd
import numpy as np
df = pd.DataFrame(np.array(res1))
df.to_csv("demo.csv")

後續

隨著時間更新，每隔 10min 自動一次到資料庫——可以獲取 Tag 或者使用者的規律
增加虎牙-戰旗-龍珠的資料
增加圖片進庫和自己定義的頁面實時優化; 實現多直播平臺的歸一化推薦

Django 存庫模板

from django.db import models

# Create your models here.

class Info(models.Model):
    data_rid = models.CharField("房間ID", max_length=20)
    data_rpos = models.CharField("", max_length=20)
    data_sid= models.CharField("", max_length=20)
    data_sub_rt = models.CharField("", max_length=20)
    data_tid = models.CharField("", max_length=20)
    dt = models.DateTimeField("時間")
    dy_name = models.CharField("賬號名字", max_length=50)
    dy_num = models.CharField("觀看數", max_length=20)
    gif= models.CharField("GIF", max_length=120)
    href = models.CharField("房間url", max_length=20)
    img = models.CharField("IMG_url", max_length=120)
    tag = models.CharField("標籤", max_length=120)
    target = models.CharField("目標", max_length=20)
    title0 = models.CharField("標題", max_length=120)

    def __str__(self):
        return self.dy_name + "_" + self.title0

    class Meta:
        verbose_name = '鬥魚時間資訊'
        verbose_name_plural = '鬥魚時間資訊180條'

class ImgTools(models.Model):
    img_url = models.URLField(verbose_name="線上路徑")
    dt = models.DateTimeField("時間")
    data_rid = models.CharField("房間ID", max_length=20)
    upload_to = models.URLField(verbose_name="本地路徑")

TXT 爬取更新

def find_min(nums):
    for i in range(len(nums)):
        if nums[i+1] > nums[i]:
            return i, nums[i]

def set_urls(book_id):
    url = "http://www.biqudu.com/" + book_id + "/"
    partern = r".*<dd> <a href=(.*?)>(.*?)</a></dd>.*"
    import pandas as pd
    import numpy as np
    ## 本方法不能分卷， 後續補上相關的事情優化
    df1 = pd.DataFrame(np.array(re.findall(partern, open_url(url))), columns=["url", "title"])
    df1["num"] = [int(list(re.findall(r".*/(.*?).html", x))[0]) for x in df1["url"]]
    ####### find all-span
    start_index = find_min(df1["num"])[0]
    return df1[start_index: len(df1)]


# 為單獨一個小說頁面爬取;txt 文件; content;
def detail():
    url = "http://www.biqudu.com/21_21470/1394112.html"
    data = open_url(url)
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(data, 'html.parser')
    content = soup.findAll('div', id="content")[0]
    return content

# print(detail())


def test(request):
    content = detail()
    return render(request, "base_test.html", {"content": content})

* 近期會花精力弄微信小程式，爬蟲放置一段時間。 ==== END ====*

鬥魚直播實時資料爬取

思路 1, 解析URL 2, 利用爬蟲神器 bs4 和正則表示式得到想要的資訊; 3, 進庫和本地儲存 DJango後臺展示和本地CSV(賣相太差，不發了) * 儲存本地的CSV 直接執行 DySpyder().su

鬥魚彈幕資料爬取

鬥魚彈幕資料抓取主要參考鬥魚的文件 dev-bbs.douyutv.com/forum.php?m… 建立連線通過socket與彈幕伺服器建立連線第三方接入彈幕伺服器列表： IP 地址： openbarrage.douyutv.com 埠： 8601 複製程式碼傳送訊息協

Scrapy專案(鬥魚直播)---利用Spider爬取顏值下的美女資訊

1、建立Scrapy專案 scrapy startproject douyu 2.進入專案目錄，使用命令genspider建立Spider scrapy genspider douyumeinv "capi.douyucdn.cn" 3、定義要抓取的資料（處理

Python3使用selenium爬取鬥魚直播平臺數據

進入鬥魚平臺首頁，點選頁面底部下一頁，發現url地址沒有發生變化，這樣的話再使用urllib2傳送請求將獲取不到完整的資料，這時候我們可以使用selenium和Chrome來模擬瀏覽器點選下一頁，這樣就可以獲取到完整的響應資料了程式程式碼： from selenium import

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

ubuntu下如何對接鬥魚直播

好玩 14.04 specific not size then struct amp and 參考教程：https://www.cnblogs.com/liuxuzzz/p/5315998.html 大神寫得挺細的，這裏都不想再多說了！為啥要做這個呢？可能真的只是為了好玩

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Android仿鬥魚直播的彈幕效果

今天，我就帶著大家一起來實現一個簡單的Android端彈幕效果。分析首先我們來看一下鬥魚上的彈幕效果，如下圖所示：這是一個Dota2遊戲直播的介面，我們可以看到，在遊戲介面的上方有很多的彈幕，看直播的觀眾們就是在這裡進行討論的。那麼這樣的一個介面該如何實現呢？其

iOS仿QQ側滑選單、登入按鈕動畫、仿鬥魚直播APP、城市選擇器、自動佈局等原始碼

iOS精選原始碼 QQ側滑選單,右滑選單,QQ展開選單,QQ好友分組 image 登入按鈕 image 3分鐘快捷建立高效能輪播圖 ScrollView巢狀ScrolloView（UITableView 、UICollectionView）解決方案

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

移動端資料爬取

前言隨著移動市場的火熱，各大平臺都陸陸續續的推出了自己的移動端APP來拉攏吸引和便捷其廣大的使用者。那麼在移動端的平臺當時勢必會出現大量有價值的資訊和資料，那這些資料我們是否可以去享用一下呢？那麼接下來就進入我們的移動端APP資料的爬蟲中來吧。今日概要

09.移動端資料爬取

java網頁資料爬取

java網頁資料爬取寫在前面書籤全部匯出爬取前的處理開始爬取並儲存 java網頁資料爬取寫在前面在瀏覽器書籤中有許多經典的東西，有時候什麼忘記了需要去

雙色球網頁歷史資料爬取

存在問題：該文中將同一個單元格中的開獎資料沒有提取出來解決方案：將開獎資料單元格中的七個號碼分別提取存入七個單元格中 import pandas as pd import csv import linecache def get_one_page(pa

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

爬蟲-移動端資料爬取

前言隨著移動市場的火熱，各大平臺都陸陸續續的推出了自己的移動端APP來拉攏吸引和便捷其廣大的使用者。那麼在移動端的平臺當時勢必會出現大量有價值的資訊和資料，那這些資料我們是否可以去享用一下呢？那麼接下來就進入我們的移動端APP資料的爬蟲中來吧。 1、什麼是Fiddl

爬蟲小計（charles抓取wss資料--yy資料爬取）

背景爬取一個直播平臺的資訊與一個普通網站的資料直播平臺的資訊有熱門主播的線上人數，時常，與熱門直播的禮物情況（粉絲的人物畫像）難點打賞禮物的人物畫像 https wss（資料的實時性），需

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Android彈幕功能實現，模仿鬥魚直播的彈幕效果

記得之前有位朋友在我的公眾號裡問過我，像直播的那種彈幕功能該如何實現？如今直播行業確實是非常火爆啊，大大小小的公司都要涉足一下直播的領域，用鬥魚的話來講，現在就是千播之戰。而彈幕則無疑是直播功能當中最為重要的一個功能之一，那麼今天，我就帶著大家一起來實現一個簡單的Androi

鬥魚直播實時資料爬取

思路

直接上程式碼

沒有 Django 模板, 爬取所有的模板2

後續

Django 存庫模板

TXT 爬取更新

相關推薦