1. 程式人生 > >大數據:數據大合集,你想要的這裏或許會有

大數據:數據大合集,你想要的這裏或許會有

數據資源

大數據時代,用數據做出理性分析顯然更為有力。做數據分析前,能夠找到合適的的數據源是一件非常重要的事情,獲取數據的方式有很多種,不必局限。下面將從公開的數據集、爬蟲、數據采集工具、付費API等等介紹。給大家推薦一些能夠用得上的數據獲取方式。

一、公開數據庫

1.常用數據公開網站

UCI:經典的機器學習、數據挖掘數據集,包含分類、聚類、回歸等問題下的多個數據集。很經典也比較古老,但依然活躍在科研學者的視線中。

技術分享圖片
國家數據:數據來源××××××,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,全面又權威。
技術分享圖片

CEIC:最完整的一套超過128個國家的經濟數據,能夠精確查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度數據。其中的“中國經濟數據庫”收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

技術分享圖片
萬得:簡要介紹:被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。
技術分享圖片

搜數網:已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,匯集了中國資訊行自92年以來收集的所有統計和調查數據,並提供多樣化的搜索功能。
技術分享圖片

中國統計信息網:×××的官方網站,匯集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。
技術分享圖片

亞馬遜:來自亞馬遜的跨科學雲數據平臺,包含化學、生物、經濟等多個領域的數據集。

技術分享圖片

figshare:研究成果共享平臺,在這裏可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數據。
技術分享圖片

github:一個非常全面的數據獲取渠道,包含各個細分領域的數據庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數據分析的人員。
技術分享圖片

2.政府開放數據

北京市政務數據資源網:包含競技、交通、醫療、天氣等數據。

深圳市政府數據開放平臺:交通、文娛、就業、基礎設施等數據。

上海市政務數據服務網:覆蓋經濟建設、文化科技、信用服務、交通出行等12個重點領域數據。

貴州省政府數據開放平臺:貴州省在政務數據開放方面做的確實不錯。

Data.gov:美國政府開放數據,包含氣候、教育、能源金融等各領域數據。

3.數據競賽網站

競賽的數據集通常幹凈且科研究性非常高。

DataCastle:專業的數據科學競賽平臺。

Kaggle:全球最大的數據競賽平臺。

天池:阿裏旗下數據科學競賽平臺。

Datafountain:CCF制定大數據競賽平臺。

二、利用爬蟲可以獲得有價值數據

這裏給出了一些網站平臺,我們可以使用爬蟲爬取網站上的數據,某些網站上也給出獲取數據的API接口,但需要付費。

1.財經數據

(1)新浪財經:免費提供接口,這篇博客教授了如何在新浪財經上獲取獲取歷史和實時股票數據。

(2)東方財富網:可以查看財務指標或者根據財務指標選股。

(3)中財網:提供各類財經數據。

(4)黃金頭條:各種財經資訊。

(5)StockQ:國際股市指數行情。

(6)Quandl:金融數據界的維基百科。

(7)Investing:投資數據。

(8)整合的96個股票API合集。

(9)Market Data Feed and API:提供大量數據,付費,有試用期。

2.網貸數據

(1)網貸之家:包含各大網貸平臺不同時間段的放貸數據。

(2)零壹數據:各大平臺的放貸數據。

(4)網貸天眼:網貸平臺、行業數據。

(5)76676互聯網金融門戶:網貸、P2P、理財等互金數據。

3.公司年報

(1)巨潮資訊:各種股市咨詢,公司股票、財務信息。

(2)SEC.gov:美國證券交易數據

(3)HKEx news披露易:年度業績報告和年報。

4.創投數據

(1)36氪:最新的投資資訊。

(2)投資潮:投資資訊、上市公司信息。

(3)IT桔子:各種創投數據。

5.社交平臺

(1)新浪微博:評論、輿情數據,社交關系數據。

(2)Twitter:輿情數據,社交關系數據。

(3)知乎:優質問答、用戶數據。

(4)微信公眾號:公眾號運營數據。

(5)百度貼吧:輿情數據

(6)Tumblr:各種福利圖片、視頻。

6.就業招聘

(1)拉勾:互聯網行業人才需求數據。

(2)中華英才網:招聘信息數據。

(3)智聯招聘:招聘信息數據。

(4)獵聘網:高端職位招聘數據。

7.餐飲食品

(1)美團外賣:區域商家、銷量、評論數據。

(2)百度外賣:區域商家、銷量、評論數據。

(3)餓了麽:區域商家、銷量、評論數據。

(4)大眾點評:點評、輿情數據。

8.交通旅遊

(1)12306:鐵路運行數據。

(2)攜程:景點、路線、機票、酒店等數據。

(3)去哪兒:景點、路線、機票、酒店等數據。

(4)途牛:景點、路線、機票、酒店等數據。

(5)貓途鷹:世界各地旅遊景點數據,來自全球旅行者的真實點評。

類似的還有同程、驢媽媽、途家等

9.電商平臺

(1)亞馬遜:商品、銷量、折扣、點評等數據

(2)淘寶:商品、銷量、折扣、點評等數據

(3)天貓:商品、銷量、折扣、點評等數據

(4)京東:3C產品為主的商品信息、銷量、折扣、點評等數據

(5)當當:圖書信息、銷量、點評數據。

類似的唯品會、聚美優品、1號店等。

10.影音數據

(1)豆瓣電影:國內最受歡迎的電影信息、評分、評論數據。

(2)時光網:最全的影視資料庫,評分、影評數據。

(3)貓眼電影專業版:實時票房數據,電影票房排行。

(4)網易雲音樂:音樂歌單、歌手信息、音樂評論數據。

11.房屋信息

(1)58同城×××:二手房數據。

(2)安居客:新房和二手房數據。

(3)Q房網:新房信息、銷售數據。

(4)房天下:新房、二手房、租房數據。

(5)小豬短租:短租房源數據。

12.購車租車

(1)網易汽車:汽車資訊、汽車數據。

(2)人人車:二手車信息、交易數據。

(3)中國汽車工業協會:汽車制造商產量、銷量數據。

13.新媒體數據

新榜:新媒體平臺運營數據。

清博大數據:微信公眾號運營榜單及輿情數據。

微問數據:一個針對微信的數據網站。

知微傳播分析:微博傳播數據。

14.分類信息

(1)58同城:豐富的同城分類信息。

(2)趕集網:豐富的同城分類信息。

如果你是小白,想通過爬蟲獲得有價值的數據,推薦我們的體系課程——Python爬蟲:入門+進階

三、數據交易平臺

由於現在數據的需求很大,也催生了很多做數據交易的平臺,當然,出去付費購買的數據,在這些平臺,也有很多免費的數據可以獲取。

優易數據:由國家信息中心發起,擁有國家級信息資源的數據平臺,國內領先的數據交易平臺。平臺有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。
技術分享圖片

數據堂:專註於互聯網綜合數據交易,提供數據交易、處理和數據API服務,包含語音識別、醫療健康、交通地理、電子商務、社交網絡、圖像識別等方面的數據。
技術分享圖片

四、網絡指數

百度指數:指數查詢平臺,可以根據指數的變化查看某個主題在各個時間段受關註的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關註趨勢之外,還有需求分析、人群畫像等精準分析的工具,對於市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產品,都可以作為參考。
技術分享圖片

阿裏指數:國內權威的商品交易分析工具,可以按地域、按行業查看商品搜索和交易數據,基於淘寶、天貓和1688平臺的交易數據基本能夠看出國內商品交易的概況,對於趨勢分析、行業觀察意義不小。

技術分享圖片
友盟指數:友盟在移動互聯網應用數據統計和分析具有較為全面的統計和分析,對於研究移動端產品、做市場調研、用戶行為分析很有幫助。除了友盟指數,友盟的互聯網報告同樣是了解互聯網趨勢的優秀讀物。
技術分享圖片

愛奇藝指數:愛奇藝指數是專門針對視頻的播放行為、趨勢的分析平臺,對於互聯網視頻的播放有著全面的統計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面。由於愛奇藝龐大的用戶基數,該指數基本可以說明實際情況。

技術分享圖片
微指數:微指數是新浪微博的數據分析工具,微指數通過關鍵詞的熱議度,以及行業/類別的平均影響力,來反映微博輿情或賬號的發展走勢。分為熱詞指數和影響力指數兩大模塊,此外,還可以查看熱議人群及各類賬號的地域分布情況。
技術分享圖片

除了以上指數外,還有谷歌趨勢、搜狗指數、360趨勢、艾漫指數等等。

五、網絡采集器

網絡采集器是通過軟件的形式實現簡單快捷地采集網絡上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的采集工具。

造數:新一代智能雲爬蟲。爬蟲工具中最快的,比其他同類產品快9倍。擁有千萬IP,可以輕松發起無數請求,數據保存在雲端,安全方便、簡單快捷。
技術分享圖片

火車采集器:一款專業的互聯網數據抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網頁上散亂分布的數據信息。

八爪魚:簡單實用的采集器,功能齊全,操作簡單,不用寫規則。特有的雲采集,關機也可以在雲服務器上運行采集任務。

大數據:數據大合集,你想要的這裏或許會有