利用twitter官網提供的api 及tweepy庫爬取tweets

阿新 • • 發佈：2019-02-02

利用twitter官網提供的api及tweepy庫爬取tweets

思路：
1.以使用者為中心，爬取使用者的所有推文資料
2.根據使用者id尋找使用者朋友的tweeter id擴充套件待爬使用者表
3.迴圈1,2

幾點說明：
1.爬推特資料需要翻牆，推薦用ss。程式碼翻牆需要http，https代理。如果是socks的話會發現瀏覽器能翻牆，但是程式碼會提示

tweepy.error.TweepError: Failed to send request: HTTPSConnectionPool(host='api.twitter.com', port=443): Max 
 retries exceeded with url: ....

說明https連線失敗。如果需要終端翻牆參考Mac命令列終端下使用shadowsocks翻牆
然後在tweepy.API中加入代理資訊，埠為你設定的代理埠。

api = tweepy.API(auth, proxy="127.0.0.1：1080",)

2.使用官方api需要先申請一個應用程式以獲得授權，申請地址Twitter應用程式名字描述什麼的隨便寫好好，沒有稽核時間，填寫後即可獲得consumer_key，consumer_secret，access_token，access_token_secret這些在求取資料時需要用到。

3.官方API有速率限制具體參見[Rate limits-Twitter Development]授權使用者和授權應用的請求視窗數有差異我用的。user_timeline（）狀語從句：user_friends（）限制如下：

這裡寫圖片描述

所以需要協調兩個介面的呼叫頻率。

4.當請求次數超過上限時會丟擲異常，然後退出程式，解決方法時tweepy.API中將引數wait_on_rate_limit，wait_on_rate_limit_notify設定為True

到達上限時，程式將自動等待，並輸出提示資訊。

api = tweepy.API(auth, proxy="127.0.0.1：1080" 
, wait_on_rate_limit=True, wait_on_rate_limit_notify=True)

5.api請求返回json格式資料如圖：

這裡寫圖片描述
6.有些使用者設定不允許取資料時會提示Not authorized. 可以在異常部分處理異常，跳過改使用者即可.tweepy.error資訊也可以在上面的官方文件連線中查到。

程式碼

import tweepy
import time
import csv
import threading

consumer_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
consumer_secret = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
access_token = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'
access_token_secret = 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'

lock = threading.Lock()

def get_tweets():
    global user_ids
    global old_ids
    lock.acquire()
    try:
        num = 0
        while len(user_ids) > 1:
            try:
                user_id = user_ids[num]
                print('crawling user %s data...' % user_id)
                auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
                auth.set_access_token(access_token, access_token_secret)
                api = tweepy.API(auth, proxy="127.0.0.1:1080", wait_on_rate_limit=True, wait_on_rate_limit_notify=True)
                tweets = []
                new_tweets = api.user_timeline(user_id, count=200)
                tweets.extend(new_tweets)
                old = tweets[-1].id - 1
                while len(new_tweets) > 0:
                    new_tweets = api.user_timeline(user_id=user_id, count=200, max_id=old)
                    tweets.extend(new_tweets)
                    old = tweets[-1].id - 1
                    print('%s tweets downloaded' % (len(tweets)))

                out_tweets = [[tweet.id, tweet.text, tweet.created_at, tweet.lang, tweet.place, tweet.geo, tweet.source,
                               tweet.truncated, tweet.favorite_count, tweet.favorited, tweet.in_reply_to_screen_name,
                               tweet.in_reply_to_status_id, tweet.in_reply_to_user_id, tweet.is_quote_status,
                               tweet.retweet_count, tweet.retweeted, tweet.user.id, tweet.user.name, tweet.user.screen_name,
                               tweet.user.statuses_count, tweet.user.time_zone, tweet.user.url, tweet.user.notifications,
                               tweet.user.profile_background_image_url, tweet.user.profile_image_url,
                               tweet.user.profile_image_url_https, tweet.user.location, tweet.user.contributors_enabled,
                               tweet.user.created_at, tweet.user.default_profile, tweet.user.default_profile_image,
                               tweet.user.description, tweet.user.favourites_count, tweet.user.follow_request_sent,
                               tweet.user.followers_count, tweet.user.following, tweet.user.friends_count,
                               tweet.user.geo_enabled] for tweet in tweets]
                user_ids.remove(user_id)
                old_ids.append(user_id)
                with open('./data1/%s_tweets.csv' % user_id, 'w',encoding='utf-8') as file:
                    writer = csv.writer(file)
                    writer.writerows(out_tweets)
                print('saved data')
            except tweepy.TweepError as e:
                if e.reason=='Not authorized.':
                    print('this user not authorized.')
                    user_ids.remove(user_id)
                    old_ids.append(user_id)
                    continue
                else:print(e)
    finally:
        lock.release()


def get_friends():
    global user_ids
    global old_ids
    global oldest
    lock.acquire()
    try:
        print('getting user friends id...')
        auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
        auth.set_access_token(access_token, access_token_secret)
        api = tweepy.API(auth, proxy="127.0.0.1:1080", wait_on_rate_limit=True, wait_on_rate_limit_notify=True)
        ids = []
        for user in old_ids[10]:
            try:
                friends = api.friends_ids(user)
                friend = []
                for idd in friends:
                    if (idd not in old_ids) and (idd not in user_ids) and(idd not in oldest):
                        friend.append(idd)
                ids.extend(friend)

            except tweepy.TweepError as e:
                if e.reason == 'Not authorized.':
                    print('this user not authorized.')
                    old_ids.remove(user)
                    oldest.append(user)
                    continue
                else:
                    print(e)
            old_ids.remove(user)
            oldest.append(user)
        user_ids.extend(ids)
        print('done!')
        with open('crawled and expened user.txt','w',encoding='utf-8') as file:
            for x in oldest:
                file.write(str(x))
                file.write(' ')
    finally:
        lock.release()


if __name__ == '__main__':
    user_ids = [25073877,198599889]
    with open('old_ids.txt','r',encoding='utf-8') as file:
        old_ids=[x for x in file.read().split(' ')]
    while len(user_ids) > 0:
        t1=threading.Thread(target=get_tweets)
        t2=threading.Thread(target=get_friends)
        t1.start()
        t1.join()
        t2.start()
        t2.join()

利用twitter官網提供的api 及tweepy庫爬取tweets

利用twitter官網提供的api及tweepy庫爬取tweets 思路： 1.以使用者為中心，爬取使用者的所有推文資料 2.根據使用者id尋找使用者朋友的tweeter id擴充套件待爬使用者表 3.迴圈1,2 幾點說明： 1.爬推特資料需

利用oracle官網提供的occi庫在windows下操作oracle資料庫

1、先前用occi操作oracle資料庫都是失敗，後來發現是我下載的庫版本和對應的dll版本不一致導致：如32庫，卻下載了64位的dll，因此導致在初始化環境就失敗，百思不得其解。 2、在下載好對應的32位庫和32位dll，可以正常初始化環境，操作oracle資料庫。 3、只需下載2個檔案

利用Python3對網易的某個話題進行爬取並儲存圖片到本地

__author__ = 'tom' import urllib.request import json import time baseDir = '/Users/tom/netease/{0}' request = 'http://url.163.com/{0}

Golang核心程式設計(9)-使用net/http及goquery庫爬取CSDN首頁文章

文章目錄一、goquery庫的安裝二、goquery的使用三、爬取CSDN首頁文章 3.1、需求分析 3.2、分析當前頁面的html文件四、爬蟲完整程式

FineBI學習系列之FineBI官網提供的SAP數據集（圖文詳解）

wiki blank 插件後 jdk1.5 jvm 現在 src strong blog 不多說，直接上幹貨！　　這是來自FineBI官網提供的幫助文檔 http://help.finebi.com/http://help.finebi.com/doc

如何正確的閱讀FFmpeg官網提供的資料

一、使用FFmpeg的閱讀資料 FFmpeg的官方文件已經非常豐富了，只要能夠靜下心來仔細閱讀就行。同時也推薦《FFmpeg從入門到精通》這本書。二、編譯FFmpeg的資料（1）檢視FFmpeg官網提供的編譯教程： https://trac.ffmpeg.org/wik

Hibernate新官網下載原始碼及支援jar

還是從這進去最新穩定版在這開啟網頁往下拉，點選下載幾秒後開始下載，網速慢的耐心點歷史版本，好像歷的不那麼明顯，就是前幾個版本接下來就是原始碼了往這瞧，點選

scrapy爬取相似頁面及回撥爬取問題（以慕課網為例）

以爬取慕課網資料為例慕課網的資料很簡單，就是通過get方式獲取的連線地址為 https://www.imooc.com/course/list?page=2 根據page引數來分頁這個時

用selenium進行網易雲音樂進行評論爬取

用selenium進行網易雲音樂進行評論爬取，然後做成詞雲圖這個是抓取刀郎-黃玫瑰的評論詞雲以下是抓取的程式碼，初學者，可能不是很完美，能執行。。呵呵。 #!/usr/bin/python # -*- coding: <encoding name> -*- i

網易雲音樂評論爬蟲:爬取全部熱門歌曲及其對應的id號

今天我給大家介紹一下用Python爬取網易雲音樂全部歌手的熱門歌曲.由於歌手個人主頁的網頁原始碼中還嵌入了一個子網頁(框架原始碼裡面包含了我們需要的資訊),因此我們不能使用requests庫來爬取,而使用selenium,接下來,讓我詳細講解整個爬取過程. 一,構造歌手個人

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

大概思路：首先利用requests庫獲取京東商品搜尋的頁面資訊，然後利用pyquery庫對爬取的資料進行分析，然後利用格式化輸出的方法輸出所爬取的資料。要爬取的頁面截圖為對前幾頁的網址進行分析可觀察出相應的規律第一頁：https://search.jd.

網貸平臺數據分析爬取並存入mysql,生成csv

學了python怎麼使用mysql就應該實際操作起來用用呀。爬取某網站上的資料並存入mysql，當然也包括存入csv檔案。因為一開始我是存csv，然後今晚學了連線資料庫（學習進度有點慢呀）… 上主程式碼 import requests imp

Python爬蟲：Scrapy框架基礎框架結構及騰訊爬取

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho

【Python簡單爬蟲設計】對豆瓣TOP100的電影名及簡要的爬取

1.使用Designer建立圖形介面（詳細操作見往期部落格點選開啟連結）對UI控制元件的繫結程式碼片段def __init__(self): QtGui.QMainWindow.__init__(self) pachong.Ui_MainWindow.__in

網易雲音樂爬蟲--評論爬取以及Top Music統計

網易云云音樂評論十分有趣，於是就想寫個爬蟲爬取評論。但是不熟悉Python，就用java寫了個。主要使用了HttpClient,，Jsoup，佇列，執行緒， log4j，poi生成Excel儲存結果，書寫過程中主要一個問題就是評論獲取

普通高中課程方案和語文等學科課程標準（2017年版）----分析及教育部官網網址

信息智能家居 eight ffffff 機器 add href 分享圖片能源我主要關註：高中信息技術、通用技術方面的課標。下面就把我的體會總結一下，便於後續教研。高中信息技術高中通用技術

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

知道經緯度來調高德地圖的官網API來獲取所在的位置(逆地理編碼)

第一步：首先要有一個key值高德的參考 https://lbs.amap.com/api/webservice/guide/api/georegeo/?sug_index=2 第二步：調介面 https://restapi.amap.com/v3/geocode/regeo?key

CSS佈局學習（三） - position屬性定義及解釋(官網直譯)

static ①元素的位置是在文件正常佈局流中的位置。 ②設定top right bottom left與z-index無效。 ③在未指定position時，static是預設值以下例子進行說明： .default{ width: 100px;

CSS布局學習（三） - position屬性定義及解釋(官網直譯)

mage http docs stand 屏幕保留 gin 技術地址 static ①元素的位置是在文檔正常布局流中的位置。 ②設置top right bottom left與z-index無效。 ③在未指定position時，static是默認值以下例子進行

利用twitter官網提供的api 及tweepy庫 爬取tweets

利用twitter官網提供的api及tweepy庫爬取tweets

相關推薦

利用twitter官網提供的api 及tweepy庫爬取tweets