爬蟲爬取新浪微博

阿新 • • 發佈：2019-01-04

這周的第一個小任務：爬取動態網頁，拿新浪微博做例子，我爬取了指定使用者微博的基本資訊，包括暱稱，性別，粉絲數，關注人數和主頁地址，還有發過的所有微博的地址和資訊內容，如果轉發時沒有說任何內容的話只會顯示轉發了微博。
需要注意的是網頁版資訊量太大，用手機端的也就是m版的會比較容易提取資訊
下面是全部程式碼：

import urllib.request
import json

id='5443276821' #要爬取使用者的Id
proxy_addr="122.241.72.191:808"#代理地址，可以自己在西刺網裡找可用的IP
url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value=' 
 + id

def get_message_page(uurl):#使用代理髮送請求
    handler = urllib.request.ProxyHandler({'http':proxy_addr})
    req=urllib.request.Request(uurl)#固定方法
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0" 
)
    opener = urllib.request.build_opener(handler)
    urllib.request.install_opener(opener)#使它全域性化，之後不論是什麼方法傳送請求都將使用自定義代理
    # response = urllib.request.urlopen('https://weibo.com/p/1005055443276821/home?from=page_100505&mod=TAB&is_all=1#place')
    data = urllib.request.urlopen(req).read().decode('utf-8' 
, 'ignore')#獲取資訊
    return data

def get_message(uurl):#獲取基本資訊包括暱稱性別，主頁地址，粉絲數，關注人數等
    data=get_message_page(uurl)
    message=json.loads(data).get('data')
    message=message.get('userInfo')
    name=message.get('screen_name')
    gender=message.get('gender')
    if(gender=='f'):
        gender='女'
    else:
        gender='男'
    profile_url=message.get('profile_url')
    profile_image_url=message.get('profile_image_url')
    verified=message.get('verified')
    if(verified=='True'):
        verified='是'
    else:
        verified='否'
    follow_count=message.get('follow_count')
    followers_count=message.get('followers_count')
    print('暱稱:'+name+'\n'+'性別:'+gender+'\n'+'頭像:'+profile_image_url+'\n'+'主頁:'+profile_url+'\n'+'是否認證:'+verified+'\n'+'粉絲數:'+str(followers_count)+'\n'+'關注人數:'+str(follow_count)+'\n')

def get_containerid(uurl):#獲取網頁的containerid，觀察得之後提取微博資訊時網頁連結上需要用這個資訊
    data=get_message_page(uurl)
    message=json.loads(data).get('data')
    for data in message.get('tabsInfo').get('tabs'):
        if(data.get('tab_type')=='weibo'):
            containerid=data.get('containerid')
            # print(containerid)
            return containerid

def get_all_mes(url,file):#獲取微博的資訊並且儲存至檔案
    containerid=get_containerid(url)
    i=1#控制網頁頁碼
    while True:
        main_url='https://m.weibo.cn/api/container/getIndex?type=uid&value='+id+'&containerid='+containerid+'&page='+str(i)
        data=get_message_page(main_url)
        weibo=json.loads(data).get('data')
        cards=weibo.get('cards')
        if (len(cards) > 0):
            print('------第 ' + str(i) + ' 頁---------------')
            for j in range(len(cards)):
                print("-----第" + str(i) + "頁，第" + str(j) + "條微博------")
                card_type = cards[j].get('card_type')
                if (card_type == 9):#觀察得包含所需微博資訊的這個值都是9
                    mblog = cards[j].get('mblog')
                    attitudes_count = mblog.get('attitudes_count')
                    comments_count = mblog.get('comments_count')
                    created_at = mblog.get('created_at')
                    reposts_count = mblog.get('reposts_count')
                    scheme = cards[j].get('scheme')
                    text = mblog.get('text')
                    print('微博地址:'+str(scheme)+"\n" +'釋出時間：'+str(created_at)+"\n"+"微博內容："+text+"\n"+'點贊數：'+str(attitudes_count)+"\n"+"評論數："+str(comments_count)+"\n"+"轉發數："+str(reposts_count)+"\n")
                    with open(file, 'a', encoding='utf-8') as f:
                        f.write("----第" + str(i) + "頁，第" + str(j) + "條微博----" + "\n")
                        f.write("微博地址："+str(scheme)+"\n"+"釋出時間："+str(created_at)+"\n"+"微博內容："+text+"\n"+"點贊數："+str(attitudes_count)+"\n"+"評論數："+str(comments_count)+"\n"+"轉發數："+str(reposts_count) + "\n")
            print('--------------------------------\n')
            i += 1
        else:
            break

def main():
    url = 'https://m.weibo.cn/api/container/getIndex?type=uid&value=' + id
    get_message(url)
    file=id+'.txt'
    get_all_mes(url,file)

main()

部分結果截圖：

存入檔案結果：

檔案中內容

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

爬蟲爬取新浪微博

這周的第一個小任務：爬取動態網頁，拿新浪微博做例子，我爬取了指定使用者微博的基本資訊，包括暱稱，性別，粉絲數，關注人數和主頁地址，還有發過的所有微博的地址和資訊內容，如果轉發時沒有說任何內容的話只會顯示轉發了微博。需要注意的是網頁版資訊量太大，用手機端的也就

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

Python爬取新浪微博用戶信息及內容

pro 目標 oss 來源但是 blog .com 交流 exc 新浪微博作為新時代火爆的新媒體社交平臺，擁有許多用戶行為及商戶數據，因此需要研究人員都想要得到新浪微博數據，But新浪微博數據量極大，獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Py

關於爬取新浪微博，記憶體耗用過高的問題

最近在做網際網路輿情分析時，需要爬取新浪微博做相關實驗。雖然新浪微博開放了相關輿論的API，然而申請什麼的，並不想做，而且輿情變化快，最終還是自己爬取，相關輿情。在用selenium的時候，有時候經常發現記憶體耗

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

java 使用htmlunit模擬登入爬取新浪微博頁面

import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoy

java爬取新浪微博帶有“展開全文”的完整微博文字

獲取新浪微博“展開全文”的完整文字在個人主頁的響應中，這篇微博的表示形式是這樣的： <div class=\"WB_text W_f14\" node-type=\"feed_list_content\" nick-name=\"Vista看天下\">\n

WebCollector教程——爬取新浪微博

下載本教程需要兩套jar包，WebCollector核心jar包和selenium的jar包。 selenium的maven依賴： <dependency> <groupId>org.seleniumhq.sele

爬取新浪微博使用者的個人資訊和微博內容

#-*- coding:utf-8 -*- """ 爬取新浪微博的使用者資訊功能：使用者ID 使用者名稱粉絲數關注數微博數微博內容網址：www.weibo.cn 資料量更少相對於 www.weibo.cn """ import time impo

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

1、獲取cookie，先進入微博頁面登陸微博，如進入https://m.weibo.cn/status/4173028302302955後登陸，再使用chrome的F12可方便地獲取自己的cookie，獲取Cookie所需的選擇項如下圖所示，往下拉會看到自己的Cookie。

用python爬取新浪微博資料（無需手動獲取cookie)

從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabi

Scrapy爬取新浪微博移動版使用者首頁第一條微博

大家好，本月第一次更新。最近找了一份關於爬蟲的實習工作，需要爬取較大量的資料，這時就發現通過自己編寫函式來實現爬蟲效率太慢了；於是又轉回來用scrapy，以前稍微學習了一下，這次剛好爬爬微博練練手，而後再使用部分資料生成詞雲。本次爬取的是新浪微博移動端（https://m.weibo.cn/），爬取的

python爬蟲爬取新浪新聞的評論數以及部分評論

首先應該去找到評論數所對應的網頁元素：可以大致猜測，這裡是用JavaScript·去計算評論數量的。重新整理頁面，去觀測頁面的js部分，有沒有對應的連結，仔細檢視：找到之後，點選Preview，看到內部結構：可以看出count部分，total代表了參與人數，show欄位代

【爬蟲初探】新浪微博搜尋爬蟲實現

全文概述功能：爬取新浪微博的搜尋結果,支援高階搜尋中對搜尋時間的限定網址：http://s.weibo.com/ 實現：採取selenium測試工具，模擬微博登入，結合PhantomJS/Firefox，分析DOM節點後，採用Xpath對節點資訊進行獲

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

爬蟲爬取新浪微博

相關推薦