1. 程式人生 > >根據使用者ID爬取Twitter資料

根據使用者ID爬取Twitter資料

我需要爬取的使用者ID存放在一個.csv檔案下,然後從官網註冊到一個APP,並獲得你的key和secret,寫入下邊的程式碼,就可以爬取tweets了。 每個ID會輸出相應的tweet並且s會放在一個.csv檔案裡,而這個.csv檔案就在你執行這段程式碼的資料夾下。 #!/usr/bin/env python # encoding: utf-8 import tweepy import csv consumer_key = "" consumer_secret = "" access_key = "" access_secret = "" def get_all_tweets(user_id):     auth = tweepy.OAuthHandler(consumer_key, consumer_secret)     auth.set_access_token(access_key, access_secret)     api = tweepy.API(auth)     # 初始化一個數字來儲存所有的tweets     alltweets = []     new_tweets = api.user_timeline(user_id=user_id, count=200)     # save most recent tweets     alltweets.extend(new_tweets)     # save the id of the oldest tweet less one     oldest = alltweets[-1].id - 1     # keep grabbing tweets until there are no tweets left to grab     while len(new_tweets) > 0:         print "getting tweets before %s" % (oldest)         # all subsiquent requests use the max_id param to prevent duplicates         new_tweets = api.user_timeline(user_id=user_id, count=200, max_id=oldest)         # save most recent tweets         alltweets.extend(new_tweets)         # update the id of the oldest tweet less one         oldest = alltweets[-1].id - 1         print "...%s tweets downloaded so far" % (len(alltweets))     # transform the tweepy tweets into a 2D array that will populate the csv     outtweets = [[tweet.id_str, tweet.created_at, tweet.text.encode("utf-8")] for tweet in alltweets]     # write the csv     with open('%s_tweets.csv' % user_id, 'wb') as f:         writer = csv.writer(f)         writer.writerow(["tweet_id", "created_at", "text"])         writer.writerows(outtweets)     pass if __name__ == '__main__':     with open(這裡寫你的檔案的位置,例如:'e:/file/userID.csv', 'rb') as f:         ID = csv.reader(f)         for row in ID: # 這裡運用了錯誤查詢機制,遇到使用者ID出現問題時,可以跳過             try:                 get_all_tweets(row[0])             except tweepy.TweepError, e:                 print 'Failed to run the command on that user, Skipping...'             except IndexError, e:                 print 'List index out of range, Skipping...'                 continue

相關推薦

根據使用者IDTwitter資料

我需要爬取的使用者ID存放在一個.csv檔案下,然後從官網註冊到一個APP,並獲得你的key和secret,寫入下邊的程式碼,就可以爬取tweets了。 每個ID會輸出相應的tweet並且s會放在一個.csv檔案裡,而這個.csv檔案就在你執行這段程式碼的資料夾下。 #!/

利用Twitter開放平臺Twitter資料

前言 Twitter對外提供了api介面且Twitter官方提供了Python第三方庫Tweepy,因此我直接參考Tweepy文件寫程式碼。現在Twitter國內是訪問不了的,我配置了Shadowsocks代理,ss預設是用socks5協議,對於Termina

根據地理位置和關鍵詞twitter資料並生成詞雲

根據地理位置和關鍵詞爬取twitter資料存入MongoDB並生成詞雲 轉載註明出處 tweepy獲取資料 生成詞雲 tweepy獲取資料 1. 建立model model.py class twitter_post(Document):

無搜尋條件根據url獲取網頁資料(java網頁資料)

jsoup jar包 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3<

有搜尋條件根據url抓網頁資料(java網頁資料)

最近有一個任務抓取如下圖的網頁資料  要獲取前一天的資料進行翻頁抓取資料並存入資料庫   如果就只是抓取當前頁的資料  沒有條件和翻頁資料 這個就比較簡單了 但是要選取前一天的資料,還有分頁資料 一開始的思路就想錯了(開始想的是觸發查詢按鈕和

高德地圖之根據矩形範圍範圍內的分類POI資料

     之前寫了一篇在城市範圍內根據關鍵字爬取POI資料的部落格,由於一個城市的POI資料量太大,高德地圖介面容易返回錯誤資料,因此有個比較好的辦法就是藉助高德地圖POI搜尋中根據多邊形範圍或矩形範圍搜尋POI資料,具體分為兩個步驟:其一是將城市分為多個小矩形(得到左上和右

店鋪商品id

sel eat avd sql conn quest code import port import requests from bs4 import BeautifulSoup import lxml import re import time import rand

python 根據鏈家的信息生成雲詞

python plot cfi lib 指定 技術 with atp ted #-*- coding: utf-8 -*- ‘‘‘ Created on 2017-10-12 @author: wbhuangzhiqiang ‘‘‘ import csv from wo

xml資料之R

生物資訊很多時候要爬資料。最近也看了一些這些方面的。 url<-"要爬取的網址" url.html<-htmlParse(url,encoding="UTF-8") 如果要獲得部分資訊,則使用XPath方法。 xpath<-"//*[@id='填寫目標id']/span[@id='細

資料傳入到pipeline中,需要對settings.py進行修改

爬蟲主程式碼xx.py完成之後,在Terminal端,執行scrapy crawl xx.py 1.如果執行結果正確,這時候,我們需要將爬取的資料通過某種途徑(資料庫、.txt存入本地或者其他)儲存下來,此時pipeline.py檔案用來決定到此是以哪種方式儲存下來。 此時,首先編寫pipe

用python股票資料的一點小結

一、背景 網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料,針對某一隻股票的歷史資料爬取,目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。 二、股票資料爬取網站 網上更多推薦的是東方財富的股票資料,連結為:http://quote.eas

資料儲存到mysql中

為了把資料儲存到mysql費了很多周折,早上再來折騰,終於折騰好了 安裝資料庫 1、pip install pymysql(根據版本來裝) 2、建立資料       開啟終端 鍵入mysql -u root -p  回車輸入密碼     &

scrapy框架 用post 網站資料 的兩種方法區別

post請求,一定要重新呼叫父類的 start_requests(self)方法 方法1:(推薦) 重構start_requests def start_requests(self): data = { 'source': 'index_na

貓眼資料

//原始碼   # # 導包#import pyximportimport requestsfrom fake_useragent import UserAgentimport json import osimport pandas as pdimport csvimport datetime

另類爬蟲:從PDF檔案中表格資料

簡介   本文將展示一個稍微不一樣點的爬蟲。   以往我們的爬蟲都是從網路上爬取資料,因為網頁一般用HTML,CSS,JavaScript程式碼寫成,因此,有大量成熟的技術來爬取網頁中的各種資料。這次,我們需要爬取的文件為PDF檔案。本文將展示如何利用Python的camelot模組

爬蟲練習--股票資料

爬取股票資料 步驟 從東方財富網找到上市公司的股票程式碼並儲存 根據股票程式碼去百度股市通去查詢相關股票的具體資訊並儲存 程式碼 #-*- coding:utf-8 -*- import requests from bs4 import Beauti

python 將資料儲存在資料庫裡

python 將爬取的資料儲存在資料庫裡 import urllib.request import re import sqlite3 response = urllib.request.urlopen("https://search.51job.com/list/010000%252C

利用linux curl網站資料

看到一個看球網站的以下截圖紅色框資料,想爬取下來,通常爬取網站資料一般都會從java或者python爬取,但本人這兩個都不會,只會shell指令碼,於是硬著頭皮試一下用shell爬取,方法很笨重,但旨在結果嘛,呵呵。 2.首先利用curl工具後者wget工具把整個網站資料爬取下來 &nbs

京東資料

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By fro

大規模資料(1)

本文以58同城網站為例子 大概流程如下: 1、找到58類目頁的所有類目連結 2、設定資料庫(這裡使用MongoDB) 3、編寫兩個爬蟲分別爬取解析該類目下的所有商品連結、詳情頁資訊並存入資料庫中 4、 首先獲取所有類目的連結: # channel_extract.py fr