微博話題下的資料爬取

阿新 • • 發佈：2021-02-16

1、前言

新浪微博中，一個話題下各個媒體或使用者發表在平臺發表的資訊是輿情研究的一個很重要的資料來源，這裡記錄一下一個話題下資料的爬取方式，以“#美國疫情#”話題為例。

2、話題下資料爬取

首先參考這篇文章，分析話題下資料爬取的結構，然後仿照示例得到如下程式碼：

import requests
from urllib.parse import urlencode
from pyquery import PyQuery as pq
import time
import xlwt

#設定代理等（新浪微博的資料是用ajax非同步下拉載入的，network->xhr）
host = 'm.weibo.cn'
base_url = 'https://%s/api/container/getIndex?' % host
user_agent = 'Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36'

#設定請求頭
headers = {
    'Host': host,
    'Referer': 'https://m.weibo.cn/search?containerid=231522type%3D1%26q%3D%23%E7%BE%8E%E5%9B%BD%E7%96%AB%E6%83%85%23',
    'User-Agent': user_agent
}

# 按頁數抓取資料
def get_single_page(page):
    #請求引數
    params = {
        'containerid': '231522type=1&q=#美國疫情#',
        'page_type': 'searchall',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('抓取錯誤', e.args)

# 解析頁面返回的json資料
global count
count = 0
def parse_page(json):
    global count
    items = json.get('data').get('cards')
    for item in items:
        item = item.get('mblog')
        if item:
            data = {
                'id': item.get('id'),
                'created': item.get('created_at'),
                'text': pq(item.get("text")).text(),  # 僅提取內容中的文字
            }
            yield data
            count +=1


if __name__ == '__main__':
    workbook = xlwt.Workbook(encoding='utf-8')# 建立一個表格
    worksheet = workbook.add_sheet('美國疫情')
    for page in range(1, 200):  # 瀑布流下拉式，載入200次
        json = get_single_page(page)
        results = parse_page(json)
        tmp_list = []
        print(count)
        for result in results: #需要存入的欄位
            worksheet.write(count, 0, label=result.get('created').strip('\n'))
            worksheet.write(count, 1, label=result.get('text').strip('\n'))

        time.sleep(1) #爬取時間間隔
        workbook.save('conv.xls')

3、展開全文解決方法

僅用以上方法爬取存在一個弊端：如果文章過長，介面上就會出現“展開全文”字樣，用此方法無法爬取到長文字。

觀察欄位，存在isLongText布林型欄位：

“展開原文”部分實際上是一個連結，組成方式為“https://m.weibo.cn/status/”+id，這個id是被爬取的文章對應的id，因此需要在爬取之前判斷是否為長文字，如果是，則需要根據響應的id跳轉到對應的頁面再次爬取，完善部分程式碼片段：

#長文字爬取程式碼段
def getLongText(lid): #lid為長文字對應的id
    # 長文字請求頭
    headers_longtext = {
        'Host': host,
        'Referer': 'https://m.weibo.cn/status/' +lid,
        'User-Agent': user_agent
    }
    params = {
        'id' : lid
    }
    url = 'https://m.weibo.cn/statuses/extend?' +urlencode(params)
    try:
        response = requests.get(url, headers=headers_longtext)
        if response.status_code == 200: #資料返回成功
            jsondata = response.json()
            tmp = jsondata.get('data')
            return pq(tmp.get("longTextContent")).text() #解析返回結構，獲取長文字對應內容
    except requests.ConnectionError as e:
        print('抓取錯誤', e.args)


# 解析頁面返回的json資料
global count
count = 0

'''
修改後的頁面爬取解析函式
'''
def parse_page(json):
    global count
    items = json.get('data').get('cards')
    for item in items:
        item = item.get('mblog')
        if item:
            if item.get('isLongText') is False: #不是長文字
                data = {
                    'id': item.get('id'),
                    'name': item.get('user').get('screen_name'),
                    'created': item.get('created_at'),
                    'text': pq(item.get("text")).text(),  # 僅提取內容中的文字
                    'attitudes': item.get('attitudes_count'),
                    'comments': item.get('comments_count'),
                    'reposts': item.get('reposts_count')
                }
            else: #長文字涉及文字的展開
                tmp = getLongText(item.get('id')) #呼叫函式
                data = {
                    'id': item.get('id'),
                    'name': item.get('user').get('screen_name'),
                    'created': item.get('created_at'),
                    'text': tmp,  # 僅提取內容中的文字
                    'attitudes': item.get('attitudes_count'),
                    'comments': item.get('comments_count'),
                    'reposts': item.get('reposts_count')
                }

            yield data
            count +=1

4、總結

話題下資料爬取相對簡單，且不涉及使用者登入，但資料爬取間隔過快，或者爬取次數過多，ip會被封掉，另外資料爬取工具也有很多，比如爬山虎不一定非要自己程式設計實現。

微博話題下的資料爬取

技術標籤：python資料爬取 1、前言新浪微博中，一個話題下各個媒體或使用者發表在平臺發表的資訊是輿情研究的一個很重要的資料來源，這裡記錄一下一個話題下資料的爬取方式，以“#美國疫情#”話題為例。

Python Scrapy多頁資料爬取實現過程解析

1.先指定通用模板 url = \'https://www.qiushibaike.com/text/page/%d/\'#通用的url模板 pageNum = 1

05資料爬取-補

修改自一個爬取資料並輸入省份查詢的指令碼。 import requests import json import mysql.connector

scrapy 全站資料爬取

大部分的網站展示的資料都進行了分頁操作，那麼將所有頁碼對應的頁面資料進行爬取就是爬蟲中的全站資料爬取。

scrapy圖片資料爬取

scrapy中已經為我們封裝好了一個專門基於圖片請求和持久化儲存的管道類ImagesPipeline，如果想要基於scrapy實現圖片資料的爬取，則可以直接使用該管道類即可

微博AnalysisQl動態資料檢視元資料設計

前言目前，AnalysisQl 資料檢視的元資料（維度、指標、指標計算器）需要通過程式碼（API）或資原始檔的形式硬編碼，應用啟動時，按照宣告的順序依次註冊。這種模式下，資料檢視是靜態的，任何一項變更都需要重新

python jira 資料爬取bug和子任務清單

importrequests import urllib3 urllib3.disable_warnings() from jira importJIRA import pandas as pd def login_jira(username,password):

24-移動端app資料爬取

移動端資料爬取安裝fiddler 真機安裝fiddler證書修改手機代理（改成電腦ip，埠設定為fiddler的埠）

騰訊微博10年資料對比，看看過去的輝煌，曾經的全球第一微博

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

淘寶資料爬取（二資料清洗）

淘寶資料清洗 01 匯入相關模組 import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt

從高可用IP代理池到千萬級網易雲音樂資料爬取的實現

Home NLP Spider Linux Pat Tags Github 知乎專欄 CV NLP 利用預訓練語言模型拓展實體集合試談語言模型中無監督非結構化知識融入

2020年《財富》中國500強排行榜資料爬取，看看都有哪些

前言一個簡單的demo，python爬蟲，其實是以前的存貨，很久很久沒有寫爬蟲了，渣渣更渣了啊！

【網路採集爬蟲】oncomine.org基因資料爬取

本次爬取的是著名基因資料庫www.oncomine.org，爬取的內容是基因相關因子和點位資訊，由於源資料是以圖片形式展現的，因此我們需要結合常規爬蟲+Ocr表格識別+影象裁剪技術進行。

Python 微信公眾號文章爬取

此文轉載自：https://blog.csdn.net/qq_36684855/article/details/110226009 Python 微信公眾號文章爬取

Python 微信公眾號文章爬取的示例程式碼

一.思路我們通過網頁版的微信公眾平臺的圖文訊息中的超連結獲取到我們需要的介面

Python進行拉勾網資料爬取框架與思路

爬取內容用互動式的方式輸入想查詢的職位並迴圈輸出職位簡要資訊，為了方便閱讀，本文使用到的變數並不是以目標變數的英文來命名，而是為了方便而取的變數名，各位大牛請諒解。（因貴網站爬取一定量資料後需要登陸，

豆瓣讀書top250資料爬取與視覺化

爬蟲–scrapy 題目：根據豆瓣讀書top250,根據出版社對書籍數量分類，繪製餅圖搭建環境

豆瓣資料爬取專案——軟體系統設計方案解決

一、概述這篇文章主要是針對一個對於豆瓣的電影資料進行爬取的爬蟲程式，將進行軟體系統的分析和設計，闡述使用的設計模式、軟體架構風格與策略，並採用檢視來描述軟體系統的模型。進行資料庫和核心資料結構的設計分

移動端資料爬取轉載：https://www.cnblogs.com/bobo-zhang/p/10068994.html

1 什麼是Fiddler?Fiddler是位於客戶端和伺服器端的HTTP代理，也是目前最常用的http抓包工具之一。它能夠記錄客戶端和伺服器之間的所有 HTTP請求，可以針對特定的HTTP請求，分析請求資料、設定斷點、除錯web應用、修

微博話題下的資料爬取

1、前言

2、話題下資料爬取

3、展開全文解決方法

4、總結

相關推薦