爬取新浪微博評論及點贊數並存儲為excel的.csv格式
阿新 • • 發佈:2019-02-18
1、獲取cookie,先進入微博頁面登陸微博,如進入https://m.weibo.cn/status/4173028302302955後登陸,再使用chrome的F12可方便地獲取自己的cookie,獲取Cookie所需的選擇項如下圖所示,往下拉會看到自己的Cookie。
2、寫爬蟲,程式碼如下,可以爬取諸如使用者名稱 評論時間 點贊數 評論內容等等,儲存為.py檔案。本文參考了一些部落格,但由於時間問題,多多少少有點不適用當前版本,具體參考Reference。
3、在.py檔案的路徑下開啟powershell或者cmd,需要先使用pip install 安裝需要import的包,最後使用python xxx.py執行,執行結果檔案在該路徑下,名字為weibo.csv 。如果執行遇到bug,需要問度娘,本部落格只提供以下解決了的bug。# -*- coding: utf-8 -*- import requests import json import time import pymongo import csv import os import codecs import sys reload(sys) sys.setdefaultencoding('utf8') client = pymongo.MongoClient('localhost', 27017) weibo = client['weibo'] comment_ = weibo['comment_'] headers = { "Cookies":'********我是最有用的Cookies********', "User-Agent":'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1' } # id可以換成任意新浪微博的微博id號,具體可以開啟相應微博檢視,這個評論通過微博開放的api獲取,不是微博地址 url_comment = ['https://m.weibo.cn/api/comments/show?id=4173028302302955&page={}'.format(str(i)) for i in range(1,1000)] #print(url_comment) path = os.getcwd()+"/weibo.csv" csvfile = open(path, 'w') csvfile.write(codecs.BOM_UTF8) writer = csv.writer(csvfile) #writer.writerow(('username','created_at','source','comment','like_counts')) def get_comment(url): try: wb_data = requests.get(url,headers=headers) #data_comment = json.loads(wb_data) #print(data_comment) jsondata = wb_data.json() datas = jsondata.get('data').get('data') for data in datas: created_at = data.get("created_at") like_counts = data.get("like_counts") source = data.get("source") username = data.get("user").get("screen_name") comment = data.get("text") #print json.dumps(comment, encoding="UTF-8", ensure_ascii=False) writer.writerow((username,created_at,source,json.dumps(comment, encoding="UTF-8", ensure_ascii=False),like_counts)) except KeyError: pass for url in url_comment: get_comment(url) time.sleep(2)
寫入csv需要注意的是中文采用utf-8編碼,如果直接寫入會報錯,在網上各種搜尋得到多種方法,其中每種方法對應如下bug:
遇到bug1:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-8: ordinal not in range(128)
需要新增:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
遇到亂碼bug2:
需要在建立檔案前新增:
csvfile.write(codecs.BOM_UTF8)
如果要輸出中文內容,可以通過如下程式碼格式化輸出除錯:
print json.dumps(comment, encoding="UTF-8", ensure_ascii=False)
4、結果:
用excel調整一下:
最後,感謝某小H給我的小問題,如果能做到的話,我會再寫一份有關微信評論的爬取(先佔個坑)。
Reference:
[1]http://blog.csdn.net/a_xiao_mili/article/details/77947802
[2]https://www.cnblogs.com/zhzhang/p/7208928.html Python爬取新浪微博評論資料,寫入csv檔案中
[3]http://blog.csdn.net/njzhujinhua/article/details/47176233 python寫utf-8檔案
etc.