爬取新浪微博評論及點贊數並存儲為excel的.csv格式

阿新 • • 發佈：2019-02-18

1、獲取cookie，先進入微博頁面登陸微博，如進入https://m.weibo.cn/status/4173028302302955後登陸，再使用chrome的F12可方便地獲取自己的cookie，獲取Cookie所需的選擇項如下圖所示，往下拉會看到自己的Cookie。

2、寫爬蟲，程式碼如下，可以爬取諸如使用者名稱評論時間點贊數評論內容等等，儲存為.py檔案。本文參考了一些部落格，但由於時間問題，多多少少有點不適用當前版本，具體參考Reference。

# -*- coding: utf-8 -*-
import requests
import json
import time
import pymongo
import csv
import os
import codecs
import sys    
reload(sys)    
sys.setdefaultencoding('utf8')

client = pymongo.MongoClient('localhost', 27017)
weibo = client['weibo']
comment_ = weibo['comment_']

headers = {
    "Cookies":'********我是最有用的Cookies********',
    "User-Agent":'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'
}
# id可以換成任意新浪微博的微博id號，具體可以開啟相應微博檢視，這個評論通過微博開放的api獲取，不是微博地址
url_comment = ['https://m.weibo.cn/api/comments/show?id=4173028302302955&page={}'.format(str(i)) for i in range(1,1000)]
#print(url_comment)
path = os.getcwd()+"/weibo.csv"
csvfile = open(path, 'w')
csvfile.write(codecs.BOM_UTF8)
writer = csv.writer(csvfile)
#writer.writerow(('username','created_at','source','comment','like_counts'))

def get_comment(url):
    try:
        wb_data = requests.get(url,headers=headers)
        #data_comment = json.loads(wb_data)
        #print(data_comment)
        jsondata = wb_data.json()
        datas = jsondata.get('data').get('data')
        for data in datas:
            created_at = data.get("created_at")
            like_counts = data.get("like_counts")
            source = data.get("source")
            username = data.get("user").get("screen_name")
            comment = data.get("text")
            #print json.dumps(comment, encoding="UTF-8", ensure_ascii=False)
            writer.writerow((username,created_at,source,json.dumps(comment, encoding="UTF-8", ensure_ascii=False),like_counts))
    except KeyError:
        pass
for url in url_comment:
    get_comment(url)
    time.sleep(2)

3、在.py檔案的路徑下開啟powershell或者cmd，需要先使用pip install 安裝需要import的包，最後使用python xxx.py執行，執行結果檔案在該路徑下，名字為weibo.csv 。如果執行遇到bug，需要問度娘，本部落格只提供以下解決了的bug。

寫入csv需要注意的是中文采用utf-8編碼，如果直接寫入會報錯，在網上各種搜尋得到多種方法，其中每種方法對應如下bug：

遇到bug1：UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-8: ordinal not in range(128)

需要新增：

import sys    
reload(sys)    
sys.setdefaultencoding('utf8')

遇到亂碼bug2：

需要在建立檔案前新增：

csvfile.write(codecs.BOM_UTF8)

如果要輸出中文內容，可以通過如下程式碼格式化輸出除錯：

print json.dumps(comment, encoding="UTF-8", ensure_ascii=False)

4、結果：

用excel調整一下：

最後，感謝某小H給我的小問題，如果能做到的話，我會再寫一份有關微信評論的爬取（先佔個坑）。

Reference:

[1]http://blog.csdn.net/a_xiao_mili/article/details/77947802

獲取新浪微博cookie

[2]https://www.cnblogs.com/zhzhang/p/7208928.html Python爬取新浪微博評論資料，寫入csv檔案中

[3]http://blog.csdn.net/njzhujinhua/article/details/47176233 python寫utf-8檔案

etc.

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

用python寫網路爬蟲-爬取新浪微博評論

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

Python爬取新浪微博用戶信息及內容

關於爬取新浪微博，記憶體耗用過高的問題

scrapy爬取新浪微博並存入MongoDB中

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬蟲爬取新浪微博

java 使用htmlunit模擬登入爬取新浪微博頁面

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

python抓取新浪微博評論並分析

java爬取新浪微博帶有“展開全文”的完整微博文字

WebCollector教程——爬取新浪微博

爬取新浪微博使用者的個人資訊和微博內容

Python爬取新浪微信評論，瞭解一下

用python爬取新浪微博資料（無需手動獲取cookie)

Scrapy爬取新浪微博移動版使用者首頁第一條微博

python爬蟲爬取新浪新聞的評論數以及部分評論

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

新浪微博評論爬蟲小DEMO

爬取新浪微博評論及點贊數並存儲為excel的.csv格式

相關推薦