C#爬取微博文字、圖片、視訊（不使用Cookie）

阿新 • • 發佈：2020-03-07

前兩天在網上偶然看到一個大佬OmegaXYZ寫的文章，Python爬取微博文字與圖片（不使用Cookie）

於是就心血來潮，順手擼一個C#版本的。

其實原理也很簡單，現在網上大多數版本都需要Cookie來獲取微博資料。但是微博之前不是出了PWA版本嘛，就是通過這個版本，可以不用Cookie，來順利獲取微博資料。

關於使用Cookie與不使用Cookie的區別，dataabc大佬也有說明，下面是原文引用

對於大部分微博使用者，不新增cookie也可以獲取其使用者資訊和大部分微博，不同的微博獲取比例不同。以2020年1月2日迪麗熱巴的微博為例，
此時她共有1085條微博，在不新增cookie的情況下，可以獲取到1026條微博，大約佔全部微博的94.56%，而在新增cookie後，可以獲取全部微博。
 
其他使用者類似，大部分都可以在不新增cookie的情況下獲取到90%以上的微博，在新增cookie後可以獲取全部微博。
具體原因是，大部分微博內容都可以在移動版匿名獲取，少量微博需要使用者登入才可以獲取，所以這部分微博在不新增cookie時是無法獲取的。 
有少部分微博使用者，不新增cookie可以獲取其微博，無法獲取其使用者資訊。對於這種情況，要想獲取其使用者資訊，是需要cookie的。

dataabc大佬，也是用萬能的Python寫了兩個版本，一個是需要Cookie，一個是不需要Cookie的。

而且使用方法寫的非常詳細。有需要的可以去Github膜拜。

這裡貼一下我親自執行的結果：

而開頭提到OmegaXYZ大佬，也是在他自己的版本上更上一層，給Python程式碼加上了GUI介面，更適合大眾小白使用者。

原文地址：python微博爬蟲GUI程式

好了，介紹完大佬們寫的作品，接下來就說一下我自己的C#版本吧。

由於我在爬蟲領域屬於純小白，一竅不通，所以並不懂什麼爬蟲（Spider）、反爬蟲（Anti-Spider）、反反爬蟲（Anti-Anti-Spider）。

不過在爬蟲與反爬蟲的鬥爭中，爬蟲一定會勝利的，因為爬蟲會進化為和真實使用者一模一樣的行為。

接下載我寫的程式碼，是沒有加入反反爬蟲的，建議一跑起來，就立即終止，或者，加入一個Task.Delay(1000)之類的延時。

不要爬取的太快，容易被微博遮蔽ip！！！

即使被遮蔽也別慌，過一段時間就會恢復。

1. 獲取使用者的uid，構建基礎url

uid即微博使用者的唯一標識id，具體如何獲取uid，可以檢視前面二位大佬寫的教程，這並不是本文的重點。

基礎url是指我們通過這個，可以獲取微博使用者的基本資訊，以及一個非常重要的欄位：containerid

只有通過containerid才可以獲取使用者發的微博。

一個完整的例項Url：

string strBaseUrl = "https://m.weibo.cn/api/container/getIndex?type=uid&value=1197191492";

2.通過HttpClient獲取containerid

通過HttpClient，把strBaseUrl和uid拼接起來，我們就可以得到返回的json資料。

而我們需要的containerid就是在 res?.data?.tabsInfo?.tabs 下面。

            var res = await HttpHelper.GetAsync<UserSummary>(strBaseUrl);
            if(res != null && res?.ok == 1)
            {
                if(res?.data?.tabsInfo?.tabs != null)
                {
                    foreach(var item in res?.data?.tabsInfo?.tabs)
                        if(item.tab_type == "weibo")
                        {
                            strContainerId = item.containerid;
                            break;
                        }
                }
            }

3. 拼接基礎url、containerid、page獲取分頁微博資訊。

拼接上面的引數，一個完整的示例：

https://m.weibo.cn/api/container/getIndex?type=uid&value=1197191492&containerid=1076031197191492&page=1

這裡我通過自己的理解區分了三種微博型別：

①包含圖片：

判斷 home?.data?.cards[j].mblog.pics != null

②包含視訊：

判斷 home?.data?.cards[j].mblog.page_info != null && home?.data?.cards[j].mblog.page_info.type == "video"

③文字：

不是①和②的

不過應該還有其他的型別，我還沒仔細分析。

C#程式碼：

string strWeiboUrl = strBaseUrl + "&containerid=" + strContainerId + "&page=";
            int i = 1;
            while(true)
            {
                var home = await HttpHelper.GetAsync<UserHome>(strWeiboUrl + i.ToString());
                if (home != null && home?.ok == 1 && home?.data != null && home?.data?.cards?.Count > 0)
                {
                    Debug.WriteLine("---第" + i + "頁---");

                    for (int j = 0; j <= home?.data?.cards.Count - 1; j++)
                    {
                        if(home?.data?.cards[j].card_type == 9)
                        {
                            Debug.WriteLine("第" + (j + 1) + "條微博---");
                            Debug.WriteLine("微博原始地址：" + home?.data?.cards[j].scheme);
                            if(home?.data?.cards[j].mblog != null)
                            {
                                Debug.WriteLine("釋出日期：" + home?.data?.cards[j].mblog.created_at
                                    + "；轉發數：" + home?.data?.cards[j].mblog.reposts_count
                                    + "；評論數：" + home?.data?.cards[j].mblog.comments_count
                                    + "；點贊數：" + home?.data?.cards[j].mblog.attitudes_count);
                                if (!string.IsNullOrEmpty(home?.data?.cards[j].mblog.source))
                                    Debug.WriteLine("來自：" + home?.data?.cards[j].mblog.source);
                                Debug.WriteLine("微博內容：" + home?.data?.cards[j].mblog.text);
                                if(home?.data?.cards[j].mblog.pics != null)
                                {
                                    Debug.WriteLine("微博型別：picture");
                                    foreach (var item in home?.data?.cards[j].mblog.pics)
                                        Debug.WriteLine(item.large.url);
                                }
                                else if(home?.data?.cards[j].mblog.page_info != null && home?.data?.cards[j].mblog.page_info.type == "video")
                                {
                                    Debug.WriteLine("微博型別：" + home?.data?.cards[j].mblog.page_info.type);
                                    Debug.WriteLine(home?.data?.cards[j].mblog.page_info.media_info.mp4_hd_url);
                                }
                                else
                                {
                                    Debug.WriteLine("微博型別：text");
                                }

                                //轉發的還是原創的
                                if(home?.data?.cards[j].mblog.retweeted_status == null)
                                {
                                    Debug.WriteLine("原創的微博");
                                }
                                else
                                {
                                    Debug.WriteLine("轉發的微博");
                                    Debug.WriteLine("原文作者：" + home?.data?.cards[j].mblog.retweeted_status.user.screen_name);
                                    Debug.WriteLine("原文內容：" + home?.data?.cards[j].mblog.retweeted_status.text);
                                }
                            }
                            Debug.WriteLine("");
                        }
                    }

                    i++;
                    Debug.WriteLine("");
                    Debug.WriteLine("");
                    Debug.WriteLine("");
                }
                else
                    break;
            }

4. 最終效果

執行後，記得趕快停掉，別爬太多資料，容易被封。

後續我會研究如使用反反爬蟲機制，防止被封。

C#爬取微博文字、圖片、視訊（不使用Cookie）

前兩天在網上偶然看到一個大佬OmegaXYZ寫的文章，Python爬取微博文字與圖片（不使用Cookie）於是就心血來潮，順手擼一個C#版本的。其實原理也很簡單，現在網上大多數版本都需要Cookie來獲取微博資料。但是微博之前不是出了PWA版本嘛，就是通過這個版本，可以不用Cookie，來順利

爬取微博評論並提取主要關鍵詞（一）

接到一個自然語言處理的任務，主要是爬取醫療行業微博評論並提取關鍵詞，順便分類。最終是要對這些評論進行自動回覆，給我的不過是初級任務，那麼我就拆解任務目標，一步一步來實現。一、首先實現的是爬蟲，實際上微博自己有提供api介面供我們查詢，我們只需要找到合適的醫療

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

字符轉義 process 程序 zha 有一個 utf-8 get ctime python3 本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected] 前言由於硬件等各種原因需要把大概

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

爬蟲實例(一)——爬取微博動態

對象 sts search script offic 開發者 sea all 不起作用首語：開始準備認真學習爬蟲了，先從基礎的開始學起，比如先爬取微博的個人動態。兩個難點：獲取動態加載的內容和翻頁這兩項操作。對象：何炅的個人需要的URL：　　首頁url：https

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

python 爬蟲 web開發編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大多

通過微博搜尋爬取微博

通過關鍵字搜尋微博，只爬取原創的微博，轉發的微博可以通過原文評論的地址找到原微博。微博預設顯示最多頁數是100頁也就是max_page 其是通過表單的形式提交，來進行翻頁。找到原微博地址後可以通過xpath解析出微博的使用者，id，轉發數，點贊數，評論數，發微博的時間以及微博內容，提取出來存到mon

python爬取微博配圖

平時沒事就喜歡刷刷微博，追追星，關注關注娛樂圈動態順便看看老婆們的最新動態，每次看到老婆們發的新圖就很幸福，於是就想寫個爬蟲把老婆們的微博配圖給爬下來，一般爬到的不是自拍就是表情包，還是收穫滿滿的。因為最近學到了一句話:不要重複造輪子。所以第一當然是去看一看有沒有別的寫出來的成品，然

爬取微博

問題一：如何對網址中的中文字元解碼和編碼 from urllib.request import quote,unquote search_content="機場" search_content_utf8=quote(search_content,encoding="utf-8"); pr

Python 非同步爬取微博資料練習

PHP交流群:294088839, Python交流群:652376983 # js 資料爬取 from urllib.parse import urlencode import requests base_url ='https://m.weibo.cn/api/container/getI

爬蟲例項利用Ajax爬取微博資料

隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取資料。那麼今天就來分享一個爬蟲例項，幫助你們更好的理解爬蟲。下面我們用程式模擬Ajax請求，將我的前10頁微博全部爬取下來。首先，定義一個方法來獲取每次請求的結果。在請求時，page是一個可變引數，所以我們將它作為方法的引數

爬蟲實例利用Ajax爬取微博數據

alt b2b 每次 png 微博可變實例我們 images 隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下

scrapy框架爬取微博之spider檔案

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import

jsoup爬蟲技術及爬取微博資料例項

最近實現了一個爬取微博資料的小程式，藉此對爬蟲技術 jsoup的使用，以及實際開發過程中的細節進行總結。首先，對於網路爬蟲的理解，它是一種能夠自動下載網頁、解析網頁的程式。網路中的資訊分散在數以億計的網頁中，而這些網頁中的資料儲存於數以百萬計的伺服器中。現實中

python簡單粗暴爬取微博評論區熱評配圖

本人爬蟲萌新，程式碼是網上搜了很多示例（很多看不懂，有些也跑不了了），摸摸索索了兩天才扒拉下來的，文中程式碼也非常簡單甚至沒有設定headers ,如有問題請指正，非常感謝！瀏覽完整程式碼請直接拖動到底部。工具：Jupyter notebook,

Python爬取微博APP

全文簡介本文是用Python爬取微博移動端的資料。可以看一下Robots協議。另外儘量不要爬取太快。如果你毫無節制的去爬取別人資料，別人網站當然會反爬越來越嚴厲。所以，不要難為別人，到最後其實是在難為你自己。至於為什麼不爬PC端，原因是移動端較簡單，很適合爬蟲新手入門。有

PHP 實現新浪微博自動評論及爬取微博id

public function jiaoben(){ $code = $this->request->param('code'); $access_token = session('access'); echo $access_token; if(

C#爬取微博文字、圖片、視訊（不使用Cookie）

相關推薦