通過呼叫Twitter API抓取Twitter資料
國內研究weibo的人比較多,資料也相對較多,但是twitter的資料相對較少。今天簡單說一下twitter api的使用。最近一小需求,採集含有指定關鍵詞的twitter資料,瞬間想到寫個爬蟲來抓取,後來突然想到twitter應該有open api可用。使用了vpn翻牆之後簡單的瞭解了twitter.com,決定直接使用 twitter api。由於twitter的open api現在也是基於oauth協議的,因此使用流程和國內一些社群比如說人人網,weibo的api的過程類似。
要想使用twitter api,首先要有twitter的賬號,並且在twitter deveoper中建立應用,地址:
上邊怎麼填就不說了,建立成功之後可以獲得應用的資訊。建立成功之後你會獲得Consumer key和Consumer secret。將這兩個資料儲存下來。如下圖:
為了方便用java操作,這裡我們使用開源的twitter4j,最新版本為:twitter4j-4.0.2。(https://github.com/twitter/twitter4j)Twitter4J也就對Twitter 的API進行了java封裝,這樣的話我們就可以很方便的使用java才操作 twitter api。twitter4j-4.0.2.zip之後,我們可以看到說明文件和例項程式碼,當然也包括原始碼。糟糕的是我覺得說明文件寫的並不詳細,建議直接看示例程式碼和原始碼就好。
首先我們建立一個java專案(當然你也可以建立web應用)並匯入相關jar,然後在專案路徑下建立twitter4j.properties檔案,裡邊填寫剛才儲存下的Consumer Key和Consumer Secret。
專案結構:
twitter4j.properties:
oauth.consumerSecret=gLpOB2rbyVTVc6DgmL***HQJzTpqTDMU5nOlrfs2ksI7muWZmQ
oauth.accessToken=2926555458-DwB2WcX8eF***hxRLkRZ6xIkCNHVNwj43e5CBWb
然後和所有基於oauth協議的開發api一樣,我們需要獲取授權資訊。程式碼如下:
這裡我們解釋一下”輸入PIN“這裡到底是輸入什麼?很簡單就是你在授權頁面登陸成功之後,瀏覽器跳轉時攜帶的code引數,如下圖所示:import java.awt.Desktop; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import java.net.URI; import java.net.URISyntaxException; import java.util.Properties; import twitter4j.Twitter; import twitter4j.TwitterException; import twitter4j.TwitterFactory; import twitter4j.auth.AccessToken; import twitter4j.auth.RequestToken; /** * @ClassName: GetAccessToken * @Description:獲取授權資訊 * @author God * @date 2014-12-12 上午11:19:53 * */ public class GetAccessToken { public static void main(String[] args) { String cPath="D:\\A_WorkSpace\\workspace14_CareerPredict\\twitter\\src\\twitter4j.properties"; File file = new File(cPath); Properties prop = new Properties(); InputStream is = null; OutputStream os = null; try { if (file.exists()) { is = new FileInputStream(file); prop.load(is); } if (args.length < 2) { if (null == prop.getProperty("oauth.consumerKey") && null == prop.getProperty("oauth.consumerSecret")) { System.out.println( "Usage: java twitter4j.examples.oauth.GetAccessToken [consumer key] [consumer secret]"); System.exit(-1); } } else { prop.setProperty("oauth.consumerKey", args[0]); prop.setProperty("oauth.consumerSecret", args[1]); os = new FileOutputStream("twitter4j.properties"); prop.store(os, "twitter4j.properties"); } } catch (IOException ioe) { ioe.printStackTrace(); System.exit(-1); } finally { if (is != null) { try { is.close(); } catch (IOException ignore) { } } if (os != null) { try { os.close(); } catch (IOException ignore) { } } } try { Twitter twitter = new TwitterFactory().getInstance(); RequestToken requestToken = twitter.getOAuthRequestToken(); System.out.println("Got access token."); System.out.println("Request token: " + requestToken.getToken()); System.out.println("Request token secret: " + requestToken.getTokenSecret()); AccessToken accessToken = null; BufferedReader br = new BufferedReader(new InputStreamReader(System.in)); while (null == accessToken) { System.out.println("Open the following URL and grant access to your account:"); System.out.println(requestToken.getAuthorizationURL()); try { //呼叫瀏覽器訪問Twiiter的授權頁面,帳號登入成功也就是授權成功後將會跳轉回到申請的APP中的Redirect_URI地址,並攜帶了request_token Desktop.getDesktop().browse(new URI(requestToken.getAuthorizationURL())); } catch (UnsupportedOperationException ignore) { } catch (IOException ignore) { } catch (URISyntaxException e) { throw new AssertionError(e); } //輸入瀏覽器跳轉時攜帶的code引數(應該將Redirect_URI設定成本系統中的一個Servlet的地址,並且下面的程式碼放到Servlet中來處理授權資訊) System.out.print("Enter the PIN(if available) and hit enter after you granted access.[PIN]:"); String pin = br.readLine(); try { if (pin.length() > 0) { accessToken = twitter.getOAuthAccessToken(requestToken, pin); } else { accessToken = twitter.getOAuthAccessToken(requestToken); } } catch (TwitterException te) { if (401 == te.getStatusCode()) { System.out.println("Unable to get the access token."); } else { te.printStackTrace(); } } } System.out.println("Got access token."); System.out.println("Access token: " + accessToken.getToken()); System.out.println("Access token secret: " + accessToken.getTokenSecret()); try { prop.setProperty("oauth.accessToken", accessToken.getToken()); prop.setProperty("oauth.accessTokenSecret", accessToken.getTokenSecret()); os = new FileOutputStream(file); prop.store(os, "twitter4j.properties"); os.close(); } catch (IOException ioe) { ioe.printStackTrace(); System.exit(-1); } finally { if (os != null) { try { os.close(); } catch (IOException ignore) { } } } System.out.println("Successfully stored access token to " + file.getAbsolutePath() + "."); System.exit(0); } catch (TwitterException te) { te.printStackTrace(); System.out.println("Failed to get accessToken: " + te.getMessage()); System.exit(-1); } catch (IOException ioe) { ioe.printStackTrace(); System.out.println("Failed to read the system input."); System.exit(-1); } } }
執行完上面的程式碼之後,我們的授權資訊會被寫入到twitter4j.properties檔案中:
#twitter4j.properties
#Fri Dec 12 11:50:52 CST 2014
<pre name="code" class="html" style="color: rgb(54, 46, 43); font-size: 14px; line-height: 26px;">oauth.consumerSecret=gLpOB2rbyVTVc6DgmL***HQJzTpqTDMU5nOlrfs2ksI7muWZmQ
oauth.accessToken=2926555458-DwB2WcX8eF***hxRLkRZ6xIkCNHVNwj43e5CBWb
oauth.accessTokenSecret=vJsyhLZF3hKLFPUNJINMBI64UgCh***xzJz8p6oxZcS3Ioauth.consumerKey=***7E1l6GHWuMFTwcZ0tIGZhP
下面我們通過呼叫api來獲取包含指定關鍵詞的twitter。(你可以參考例項程式碼SearchTweets.java)本人程式碼如下:
import java.util.ArrayList;
import java.util.List;
import twitter4j.Query;
import twitter4j.Query.ResultType;
import twitter4j.QueryResult;
import twitter4j.Status;
import twitter4j.Twitter;
import twitter4j.TwitterException;
import twitter4j.TwitterFactory;
import com.twiter.info.domain.TwitterInfo;
import com.twiter.info.search.Search;
import com.twiter.info.utils.DateUtil;
import com.twiter.info.utils.ParserUtil;
public class SearchOnGetImpl implements Search{
private Twitter twitter = new TwitterFactory().getInstance();
private QueryResult result;
public SearchOnGetImpl() {
}
@Override
public <T> List<T> search(String key) {
return search(key, 1000, null, null);
}
@Override
public <T> List<T> search(String key, int count, String sinceDate) {
return search(key, count, sinceDate, null);
}
@Override
public <T> List<T> search(String key, int count, String sinceDate,
String endDate) {
List<TwitterInfo> infos=new ArrayList<>();
Query query=new Query();
try {
query.setResultType(ResultType.mixed);
query.setQuery(key);
query.setCount(100);//設定每次獲取數量
if(sinceDate!=null){
query.setSince(sinceDate);
}
if(endDate!=null){
query.until(endDate);
}
do {
result = twitter.search(query);
List<Status> tweets = result.getTweets();
String num = result.getQuery();
int level = result.getAccessLevel();
infos.addAll(res2TwitterInfos(tweets));
if(infos.size()>=count)break;
} while ((query = result.nextQuery()) != null);
} catch (TwitterException te) {
te.printStackTrace();
}
return (List<T>) infos;
}
/**
* @Title: res2TwitterInfos
* @Description: 轉換為目標實體類
* @param tweets
* @return List<TwitterInfo>
*/
public List<TwitterInfo> res2TwitterInfos(List<Status> tweets){
TwitterInfo info=null;
List<TwitterInfo> infos=new ArrayList<TwitterInfo>();
for (Status tweet : tweets) {
info=new TwitterInfo();
info.setId(String.valueOf(tweet.getId()));
info.setContent(ParserUtil.E2C(tweet.getText()));
info.setDate(DateUtil.date2StandardFormat(tweet.getCreatedAt()));
info.setClient(ParserUtil.clean(tweet.getSource()));
infos.add(info);
}
return infos;
}
@Override
public <T> List<T> search(String key, int count) {
return this.search(key, count, null, null);
}
public static void main(String[] args) {
new SearchOnGetImpl().search("fe",5000);
}
}
ok,到現在為止我們便可獲取包含fe關鍵詞的twitter資料。但是要注意,這種方式只能獲取一週之內的twitter資料。要想不斷的獲取的話,只能採取另外的方案,通過呼叫Streaming apis不斷的獲取twitter,然後自己再過濾。可以參考PrintSampleStream.java例項程式碼。
demo下載地址:http://download.csdn.net/detail/dd864140130/9451385