使用網頁爬蟲（高階搜尋功能）蒐集含關鍵詞新浪微博資料

阿新 • • 發佈：2019-02-20

作為國內社交媒體的領航者，很遺憾，新浪微博沒有提供以“關鍵字+時間+區域”方式獲取的官方API。當我們看到國外科研成果都是基於某關鍵字獲得的社交媒體資料，心中不免涼了一大截，或者轉戰推特。再次建議微博能更開放些！

1、切入點

慶幸的是，新浪提供了高階搜尋功能。找不到？這個功能需要使用者登入才能使用……沒關係，下面將詳細講述如何在無須登入的情況下，獲取“關鍵字+時間+區域”的新浪微博。

首先我們還是要登入一下，看看到底是個什麼樣的功能。

然後我們看看位址列：

http://s.weibo.com/wb/%25E4%25B8%25AD%25E5%259B%25BD%25E5%25A5%25BD%25E5%25A3%25B0%25E9%259F%25B3&

xsort=time&region=custom:11:1000&timescope=custom:2014-07-09-2:2014-07-19-4&Refer=g

這麼長？其實蠻清晰、簡單的。解析如下：

固定地址部分：http://s.weibo.com/wb/

關鍵字（2次URLEncode編碼）：%25E4%25B8%25AD%25E5%259B%25BD%25E5%25A5%25BD%25E5%25A3%25B0%25E9%259F%25B3

返回微博的排序方式（此處為“實時”）：xsort=time

搜尋地區：region=custom:11:1000

搜尋時間範圍：timescope=custom:2013-07-02-2:2013-07-09-2

可忽略項：Refer=g

是否顯示類似微博（未出現）：nodup=1 注：加上這個選項可多收集微博，建議加上。預設為省略引數，即省略部分相似微博。

某次請求的頁數（未出現）：page=1

既然是這麼回事，我們接下來就可以使用網頁爬蟲的方式獲取“關鍵字+時間+區域”的微博了……

2、採集思路

大體思路如下：構造URL，爬取網頁，然後解析網頁中的微博資訊，如下圖所示。微博官方提供了根據微博ID進行查詢的微博資訊的API，故本文只負責講述收集微博ID。

另外，高階搜尋最多返回50頁微博，那麼時間間隔設定最小為宜。所以時間範圍（timescope）可設定為1小時，如2013-07-01-2:2013-07-01-2。

目前沒有模擬登陸，所以需要設定兩個鄰近URL請求之間的隨機休眠時間，過於頻繁會被認為是機器人，你懂的。

3、具體實現

作為爬蟲小工具，用python非常適合。作為python初學者，不要怪我寫得像java。首先實現一個爬取每個小時的類。

class CollectData():
"""每小時資料收集類
利用微博高階搜尋功能，按關鍵字蒐集一定時間範圍內的微博。
大體思路：構造URL，爬取網頁，然後解析網頁中的微博ID。後續利用微博API進行資料入庫。本程式只負責收集微博的ID。
登陸新浪微博，進入高階搜尋，輸入關鍵字”空氣汙染“，選擇”實時“，時間為”2013-07-02-2:2013-07-09-2“，地區為”北京“，之後傳送請求會發現位址列變為如下：
http://s.weibo.com/wb/%25E7%25A9%25BA%25E6%25B0%2594%25E6%25B1%25A1%25E6%259F%2593&xsort=time&region=custom:11:1000×cope=custom:2013-07-02-2:2013-07-09-2&Refer=g
固定地址部分：http://s.weibo.com/wb/
關鍵字二次UTF-8編碼：%25E7%25A9%25BA%25E6%25B0%2594%25E6%25B1%25A1%25E6%259F%2593
排序為“實時”：xsort=time
搜尋地區：region=custom:11:1000
搜尋時間範圍：timescope=custom:2013-07-02-2:2013-07-09-2
可忽略項：Refer=g
顯示類似微博：nodup=1 注：這個選項可多收集微博，建議加上。預設不加此引數，省略了部分相似微博。
某次請求的頁數：page=1
另外，高階搜尋最多返回50頁微博，那麼時間間隔設定最小為宜。所以該類設定為蒐集一定時間段內最多50頁微博。
"""
def __init__(self, keyword, startTime, region, savedir, interval='50', flag=True, begin_url_per = "http://s.weibo.com/weibo/"):
self.begin_url_per = begin_url_per #設定固定地址部分，預設為"http://s.weibo.com/weibo/"，或者"http://s.weibo.com/wb/"
self.setKeyword(keyword) #設定關鍵字
self.setStartTimescope(startTime) #設定搜尋的開始時間
self.setRegion(region) #設定搜尋區域
self.setSave_dir(savedir) #設定結果的儲存目錄
self.setInterval(interval) #設定鄰近網頁請求之間的基礎時間間隔（注意：過於頻繁會被認為是機器人）
self.setFlag(flag) #設定
self.logger = logging.getLogger('main.CollectData') #初始化日誌
##設定關鍵字
##關鍵字需解碼
def setKeyword(self, keyword):
self.keyword = keyword.decode('GBK').encode("utf-8")
print'twice encode:',self.getKeyWord()
##設定起始範圍，間隔為1小時
##格式為：yyyy-mm-dd-HH
def setStartTimescope(self, startTime):
ifnot (startTime == '-'):
self.timescope = startTime + ":" + startTime
else:
self.timescope = '-'
##設定搜尋地區
def setRegion(self, region):
self.region = region
##設定結果的儲存目錄
def setSave_dir(self, save_dir):
self.save_dir = save_dir
ifnot os.path.exists(self.save_dir):
os.mkdir(self.save_dir)
##設定鄰近網頁請求之間的基礎時間間隔
def setInterval(self, interval):
self.interval = int(interval)
##設定是否被認為機器人的標誌。若為False，需要進入頁面，手動輸入驗證碼
def setFlag(self, flag):
self.flag = flag
##構建URL
def getURL(self):
returnself.begin_url_per+self.getKeyWord()+"&region=custom:"+self.region+"&xsort=time×cope=custom:"+self.timescope+"&nodup=1&page="
##關鍵字需要進行兩次urlencode
def getKeyWord(self):
once = urllib.urlencode({"kw":self.keyword})[3:]
return urllib.urlencode({"kw":once})[3:]
##爬取一次請求中的所有網頁，最多返回50頁
def download(self, url, maxTryNum=4):
content = open(self.save_dir + os.sep + "weibo_ids.txt", "ab") #向結果檔案中寫微博ID
hasMore = True#某次請求可能少於50頁，設定標記，判斷是否還有下一頁
isCaught = False#某次請求被認為是機器人，設定標記，判斷是否被抓住。抓住後，需要複製log中的檔案，進入頁面，輸入驗證碼
mid_filter = set([]) #過濾重複的微博ID
i = 1#記錄本次請求所返回的頁數
while hasMore and i < 51and (not isCaught): #最多返回50頁，對每頁進行解析，並寫入結果檔案
source_url = url + str(i) #構建某頁的URL
data = ''#儲存該頁的網頁資料
goon = True#網路中斷標記
##網路不好的情況，試著嘗試請求三次
for tryNum in range(maxTryNum):
try:
html = urllib2.urlopen(source_url, timeout=12)
data = html.read()
break
except:
if tryNum < (maxTryNum-1):
time.sleep(10)
else:
print'Internet Connect Error!'
self.logger.error('Internet Connect Error!')
self.logger.info('filePath: ' + savedir)
self.logger.info('url: ' + source_url) <

使用網頁爬蟲（高階搜尋功能）蒐集含關鍵詞新浪微博資料

作為國內社交媒體的領航者，很遺憾，新浪微博沒有提供以“關鍵字+時間+區域”方式獲取的官方API。當我們看到國外科研成果都是基於某關鍵字獲得的社交媒體資料，心中不免涼了一大截，或者轉戰推特。再次建議微博能更開放些！1、切入點慶幸的是，新浪提供了高階搜尋功能。找不到？這個功能需要

新浪微博PC客戶端（DotNet WinForm C# 版，C#呼叫新浪微博API程式碼，原始碼下載）—— 初探 (第二部分內建連結)

最近興趣使然嘗試了一下使用DotNet技術實現新浪微博PC客戶端，幾天時間，目前實現登入、微博列表、釋出純文字微博功能，新浪API呼叫基本沒什麼難度，在微博列表形式處理上著實讓我煩躁了一陣子，Windows Form使用不多，這次開發也感覺有些捉襟見肘。環境：

新浪微博資料探勘（python）本週人們在討論的熱門話題的提取

分析熱門話題微博：（1）人們在討論（查詢）什麼話題（熱門話題）（2）該話題下的微博獲取（3）那些人轉發了微博（涉及的人物）（4）轉發的時間和地點（話題的在時間和空間上的影響度）（5）網民對此持有什麼態度（情感分析）開始之前，python的字典和列表的操作知識必須

用python爬取新浪微博資料（無需手動獲取cookie)

從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabi

Solr（全文搜尋功能）的介紹，安裝及配置

Solr（全文搜尋功能） Solr是什麼？ Solr 是Apache下的一個頂級開源專案，採用Java開發，它是基於Lucene的全文搜尋伺服器。Solr提供了比Lucene更為豐富的查詢語言，同時實現了可配置、可擴充套件，並對索引、搜尋效能進行了優

1-新浪微博爬蟲-（2017-05-09）

1 爬使用者的資訊 1-1 哪裡找cookies 1-2 哪裡找使用者資訊 2 爬使用者發過的所有部落格 2

新浪微博爬蟲分享（一天可抓取 1300 萬條資料）

爬蟲功能：此專案和QQ空間爬蟲類似，主要爬取新浪微博使用者的個人資訊、微博資訊、粉絲和關注（詳細見此）。程式碼獲取新浪微博Cookie進行登入，可通過多賬號登入來防止新浪的反扒（用來登入的賬號可從淘寶購買，一塊錢七個）。專案爬的是新浪微

iOS-仿赤兔、新浪微博動態列表（帶評論、點贊、轉發和分享,自動計算行高功能）

最近有空整理一下專案,做了一個仿赤兔、新浪微博動態列表（帶評論、點贊、轉發和分享,自動計算行高功能）的DEMO。HKPTimeLine ,喜歡的可以star一下哦。使用到的第三方框架有:Masonry,HYBMasonryAutoCe

爬蟲—新浪微博（登陸訪問、cookie訪問）

一、思路：登入 ====>進入指定頁面 ====>獲取cookie ====> 帶cookie訪問相關頁面。注：貌似微博頁面稍微改了一下：現在通過登入直接進入個人中心的過程中所獲取的cookie不能用於訪問其他頁面，因此，才會在登陸後加一層進

Android實現新浪微博SSO授權登入分享文字圖片等功能（WEIBO_ANDROID_SDK V2.3.0 ）

新浪開發平臺：http://open.weibo.com 新浪微博分享目前分為兩種途徑： 1，直接在自己的APP，彈出類似Dialog（sina整合）來完成授權，授權成功後可直接分享內容，全程都是在自己APP裡完成分享。老版本的微博SDK中集成了彈出分享Dialog（

爬蟲計劃（一）--實現新浪微博自動登入和釋出內容

看到網上很多人都對新浪微博進行爬蟲，正巧公司也有外接的小活，因此本人也加入到爬蟲的佇列，開始研究新浪微博。歷時半個月，一路上遇到諸多阻礙，還好沒有放棄，最終實現了對新浪微博的自動登入以及自動釋出內容！下面本人分多個章節把我的爬蟲經歷以及方法分享給大家，最後會附上程式碼（

java parse 帶英文單詞的日期字符串轉 date （轉化新浪微博api返回的時間）

site ats 技術 cnblogs local 隨筆 html5 null 就會拂曉風起專註前端技術cocos2d、js、flash、html5，聯系：[email protected]/* */，請不吝推薦簡歷。博客園首頁

apigw鑒權分析（1-4）新浪微博開放平臺 - 鑒權分析

取消 spa 控制 server 信息 des 包含 flash poi 一、訪問入口 http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E 微博開放接口的

（一一六）新浪微博client的離線緩存實現思路

aso 離線要求北京 ... comm roo rep 功能上一節（一一五）利用NSKeyedArchiver實現隨意對象轉為二進制介紹了將隨意對象轉化為二進制數據和還原的方法。可用於實現本節介紹的微博數據離線緩存。通過新浪官方的API能夠發現，返回的微博

iOS之接入新浪微博 SDK（微信支付）的坑(registerApp 的問題)

com .net symbols object type lan creat manager -o 最近在做一個 iOS 的 cocos2d-x 項目接入新浪微博 SDK 的時候被“坑”了，最後終於順利的解決了。發現網上也有不少人遇到一樣的問題，但是能找到的數量有限的解決辦

全程模擬新浪微博登錄（2015）

star php utf 版本 get lag spa ckey phoenix 非常久之前就了解過模擬登錄的過程。近期對python用的比較多，想來練練手，就想實現

7-3 出租（20 分）下面是新浪微博上曾經很火的一張圖：

一時間網上一片求救聲，急問這個怎麼破。其實這段程式碼很簡單，index陣列就是arr陣列的下標，index[0]=2 對應 arr[2]=1，index[1]=0 對應 arr[0]=8，index[2]=3 對應 arr[3]=0，以此類推…… 很容易得到電話號碼是18013820100。

MapReduce程式設計-新浪微博內容相關（內容廣告有效推薦）

通過之前的幾個MR程式的場景樣例，我們簡單瞭解了一些MR程式設計和離線計算的相關知識。這篇博文我們對MapReduce進行進一步的運用和解讀。案例場景：現在我們有一批新浪微博的資料資訊（當然，這裡的資料集是經過處理的，但並不影響我們的專案樣例編寫）。資料資

新浪微博Android-SDK分享網頁功能

新浪微博的SDK真難用，包括QQ，微信的，都很難用。難用的原因是文件不全，並且更新太慢，各個連結裡使用的版本還不統一新浪的之前在使用的時候，總是出錯，不過還好，它沒有加混淆，可以很方便地除錯。為了防止後人繼續出錯，把一個分享內容的功能貼出來。 Toast.

（一）新浪微博_OAuth2.0授權機制

OAuth2.0 概述整體來看OAuth2.0整個授權驗證流程還是比較簡單的，關於OAuth2.0的授權流程可以參考下面的流程圖。其中 Client指第三方應用， Resource Owner指使用者， Authorizat

使用網頁爬蟲（高階搜尋功能）蒐集含關鍵詞新浪微博資料

1、切入點

2、採集思路

3、具體實現

相關推薦