100+詭異的資料集，20萬Eclipse Bug、死囚遺言等

阿新 • • 發佈：2019-01-18

摘要：近日，Robert Seaton整理了100多個最有趣的資料集，其中包括Jeopardy真題，死囚的最後一句話，20萬個Eclipse Bug，足球比賽相關，柏拉圖式的愛情，太陽系以外的行星，11.3萬個恐怖事件等。

【編者按】在資料爆發式增長的逼迫下，當下資料分析能力已得到長足的發展，機器學習更成為資料處理中必不可缺少的一環。這裡，為大家分享Robert Seaton在其個人部落格上整理的100+最有趣的資料集，從柏拉圖式的愛情到政治競選再到死刑囚犯，可謂是應有盡有，旨在給大家的模型訓練的過程增加一些樂趣。

1. 如果你是智力競賽節目Jeopardy的參賽選手，你該如何準備？你可以下載這個資料集——

215930個Jeopardy真題。把這個資料集放到記憶系統中，你就是下一個贏家。

2. 想知道被判死刑是什麼樣的感受？看看這個資料集—— 德克薩斯州將1984年以來每個死刑犯的最後一句放到了網上。藉助這些資料，我們可以進行臨刑者的情感分析。

3. 談到監獄，還有很多關於囚犯的資訊，如“犯罪史，家庭背景和個人性格，藥物史、酗酒史、治療方案，槍支所有權和使用史、監獄活動，專案，服務”。

4. 想讀他人的郵件麼？即使你想，你也沒有那個技術，更沒有哪個膽量去。來看看安然公司的文集資料庫吧。這個資料庫包括來自 150多個使用者的100萬封郵件，大部分郵件來自Enron公司的管理層，以資料夾的形式呈現。

想了解網際網路使用者都關心什麼？這個問題不好回答，我們可以先回答一個更簡單的問題：Reddit（新聞網站）使用者都關心什麼。有人將 Reddit上250萬個帖子進行了分析，公佈到了GitHub上。通過這些資料，我們可以瞭解使用者對貓的喜愛程度，一個數據是否支援r/circlejerk。

6. 談到貓，還有一個數據集上 10000張有註釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時，這個資料集會非常有用。

7. 如果你對構建金融演算法有興趣，或者只是對預測美國最大經濟作物的套利機會感興趣，那你應該看看這個資料集，該資料集包含了從2010年9月2日到現在的所有大麻價格資料。

9. 有關象棋比賽的記錄最早可追溯到10世紀，產生於巴格達的歷史學家和一位學者之間博弈。從那以後，記錄象棋比賽中的每一步成為一種傳統——尤其是對於那些有重大意義的比賽，比如兩個強勁的對手之間的勝負之戰。因此，今天的象棋學生們可以藉助包含這些比賽記錄的豐富資料集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽資料集，聲稱有220萬條比賽記錄，你可以通過

此連結下載該資料集。

10. 說起比賽這個主題，少不了足球，我已經找到了關於足球比賽、足球運動員、球隊、得分等資訊的資料集。如果這些還不夠，你還可以利用S occermetrics API的python包獲取更多的資料。我想只要教練們想要戰勝對手，這些資料遲早會發揮作用。通常我們說：極客和賭徒區別，就在於極客們通過構建分析模型獲得勝利。

11. Google已經開放了所有的Google Book字串資料（n-gram）。每個字串實際上是由n個單片語成的短語，開放的資料集中包括了1-gram到5-gram等不同長度的字串資料。該資料集的建立是“基於1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一資料集來判斷哪些短語被過度使用，哪些短語已經過時，哪些短語面臨被淘汰的危險（友情提醒：有些人甚至已經搶先註冊了clichealert.com域名）。

12. 亞馬遜有大量開放的資料集（雖說是免費的，但免費只是針對AWS的使用者），該資料集包括了從超過280萬個網頁上抓取的資料。分析抓取的資料，買下有升值空間的網址後，你可以再賣給那些需要做SEO的人，或者你也可以自己用來建立下一個Google。

13. 少數民族的電腦科學跳級考試成績如何？你可以自己查一下然後告訴我。

14. 有一個百萬歌曲（Million Song）資料集，包含了一百多首不同的歌曲，包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好，這些資料還適用於聚類演算法（比如，自動型別檢測），但我不太確定能起到多大的作用。許多人試過基於這些資料構建推薦演算法，包括 Kagglers和 Cornell的一個團隊。一種做法是：按照時間，比如按年分析音樂——70年代、80年代或者90年代（或者找出“模仿-領導“效應，比如一首歌因為風格獨特而流行，還會有很多模仿者）。

15. 說道音樂的資料集，last.fm有大量可用的音樂資料。last.fm從它的36萬用戶那裡收集資料，這些資料可能是以“使用者，藝術家，以及歌曲的播放資訊”這樣的形式呈現，這時候用聚類演算法自動給音樂分類或者構建推薦系統會更好。

16. 我一想起極客，總會聯想到數學和計算機黑客，但是極客遠不止這麼簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網路圖”，使用 Facebook的社交網路圖，還可以做一個新的“什麼是超級英雄？”測驗。

15. Yelp有免費的資料子集，包括餐館排名和評論資料。通過挖掘Twitter來獲取你需要的資料，可以讓你擁有可以匹敵Yelp的競爭力。

18.如果你對資料（元資料）中的資料感興趣，你或許也會對Jürgen Schwärzler感興趣，Jürgen Schwärzler是Google公共資料團隊中的一名統計學家，他整理出一個排名，記錄下常被搜尋的數據。前5位分別是學校對比、失業、人口、營業稅和工資。

19. 我的讀者中無疑有一些邪惡的天才，當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智慧機器人感興趣，但是要建造這樣的一個機器人，你必須教會它事實，然而，手動輸入1千萬條事實是一件痛苦的事情。還好， Freebase為我們減少了工作量，它為我們免費開放的資料集包含了19億條事實。

20. 你或許沒有打算建造一個超級機器人，只要比一般的數學家聰明一點就行。如果是這種情況的話，那你就需要教你的機器人許多數學知識（定義和定理），因此，你可能需要了解一下 Mizar專案，該專案為我們提供了9400條定義和49000條定理。

21. 那我們假設你建造出了這樣的機器“數學家”，它能在證明上為你提供幫助，但那又能怎樣？你還需要一個能和你在更深層次交流的人，一個能對某些抽象的主題進行概括的人。這樣，你就需要給你的機器人“喂”維基百科的資料了，所有維基百科的資料都是免費開放的。

22. 當你對數學和維基百科都厭倦時（事實上，這些是掙不到錢的），你會決定成為一名軟體工程師。這時，你面臨讓一個對程式設計沒有基本概念的機器來教你程式設計的尷尬，在哪能找到相關的資料呢？你可以下載 730萬個StackOverflow問題（這些都是免費的），所以你可以從StackOverflow和StackExchange兩處得到資訊來“喂”你的機器（另外還有來自Cross Validated的資料，等等）。

23. 你想過研究一下正真的友誼嗎？（試一下吧，實現你成為社會科學家的願望）。你瞭解正真的、柏拉圖式的愛情（像海豚之間的那種感情）嗎？即使暫時還不瞭解，你也完全可以做到，這要感謝謙虛的作者本人，當然還得感謝Mark Newman，他構建了一個由6 2只海豚組成的親密的社群——New Zealand，遠離偽裝和不信任。

24. 是不是左傾的部落格通常會連結到其他左傾的部落格，而不是右傾的部落格？好吧，其實我也不知道，但是這聽起來還是很合理的。要特別感謝LadaAdamic的許可，你可以下載2005年記錄下的美國政治超連結網路。

25. 誰更友好一些：是爵士樂音樂家還是海豚？你會發現我們應該將之前提到的海豚資料集和Pablo M. Gleiser、Leon Danon的爵士樂音樂家網路資料集結合起來分析。

26. 那20世紀30年代的南方婦女和囚犯呢？誰更友好？兄弟會成員和HAM無線電話務員，誰又更友好呢？這些問題都可以用網路資料集來解決。

28.Web2.0網站（比如Reddit）有時候會被用“投票環”這種方式作弊，很多人故意互相投票，而不在乎內容質量。我們經常會想在學術界會不會也出現這樣的情況。Stanford大學有一個線上 Arxiv’s High Energy Physics文獻引用網，你會從中發現類似的現象。

29. 我假設讀者們都非常聰明，但也許你們還想變得更加富有，這樣你就能建立下一個Bill and Melinda Gates基金會，然後拯救世界。那也許你應該開發一些新奇的交易演算法。但是，在這種情況下，依據市場歷史資料檢驗一樣你的策略會更好，你可以通過此連結獲取市場資料。

30. 公開產品資料（ Open Product Data）網站旨在為每個品牌提供免費的條形碼資料。經營理念是：建立一個特別的紋身店，只紋條形碼，但允許客戶選擇他們想要的產品，想想看：“你的條形碼錶達的意義是什麼？”“這樣的條形碼就像是一種信仰。”

31. 做中期天氣預測的European Center對收集天氣資料情有獨鍾。如果你要問這和天氣有關嗎？其實我主要想談一些我認識到的關於天氣資料的有趣應用：金融行業。我很尊敬金融，主要是因為有些人做了一些瘋狂的事情。我聽說過中微子的應用實際上是 “因為金融”。你的演算法可以解決購買印尼芝麻種子期貨問題嗎？有了天氣資料，也許就可以。

32. 如果你想了解食物的營養資料，美國農業部可以為你提供資料。你可以開發一個判斷使用者是否類食物過敏的手機APP。然後說服學校給每個學生購買這個APP。

33. 想精通語言，字典必不可少，但談到單詞資料，沒有什麼字典比WordNet更優秀。WordNet側重於語言的結構，這點其它字典無法比擬。

34. NASA公佈了太陽系以外的行星資料集。買一個飛船，你可以飛到那裡建一個祕密基地。

35. 聯邦鐵路管理局有“ 關於鐵路事故和意外的安全資訊，庫存和穿過的高速公路資料”。一些組織（如紐約時報）可以通過這些資料判斷貧窮地區的人們是否更容易發生火車事故等。

36. 如果你需要關於圖書的資料，你可以到Open Library下載免費的資料集。

38. 如果你想通過自動匯入引用資料構建Papers2的競爭對手，你可以使用CrossRef的元資料查詢。

39. Mnemosyne是一個虛擬卡片應用，通過間隔重複輔助記憶。幾年來，這個專案一直在搜尋使用者資料，現在 gwern公司同意將這些資料免費公開若干月。研究者們可以在這些資料上執行機器學習演算法，瞭解更多關於人類記憶的資訊。

40. 婚禮上邀請賈斯丁•比伯要花多少錢？ Priceconomics網站列舉了僱傭各種明星的價格。你可以藉助這些資料計算流行度和價格的比率。

41. 有些資料集可以更好的預測股市。2011年，研究員發現他們可以通過分析推特資料預測股市：他們分析與上市公司相關的推文，然後計算一個“情緒得分”，通過這個得分預測股市。

42. 2014年，Clifford Winston和Fred Mannering指出，美國在車輛交通上每年花費千億。我們可以通過資料集提高交通效率。例如，我們可以通過對歷史交通資料進行演算法分析，預測交通擁擠時段、路段。 data.gov網站提供了相關資料。

43. 如果你想開發一個跟蹤實時路況的app，你需要不同的資料來源。

44. 如果你想開發反垃圾軟體服務，或者只是分析通常垃圾郵件的內容，你需要資料。 UCIrvine提供這些資料。

45. 如果你想做反垃圾簡訊服務，你依舊可以找到相關資料。

46. 有大量的資料可被R操作，你所需的只是安裝一個包。 Ecdat是其中的一個包，包括大量的計算資料。我還見到過對數學水平和抽菸量關係的分析。

47. 有沒有想過一個人會參加多個公司的董事會，比如：Condoleezza Rice（美國前國務卿賴斯）加上和她密切相關的政府監控，或許這對於Dropbox來說不能算是最好的選擇。好吧，有了這個資料集，你也可以做到，但這隻針對挪威——因為該資料集是由挪威的上市公司組成的網路資料。

48. 有沒有看過：地方政府會根據一個人的社會關係來判斷某人是不是恐怖分子？實際上，你也可以得到這些資料，分析出恐怖分子的社交網路。

49. 圍繞維基百科的官僚機構一直存在很大的爭論。如何才能成為一個真正的維基百科大人物？誰才是維基百科最理想的管理者？當然，可以通過投票，資料可以免費下載。

50. 哈佛大學開放了哈佛大學圖書館持有的“ 超過1200萬的材料資料記錄”資料集，包括了書籍、期刊、電子資源、手稿、檔案材料、音訊、視訊等各種形式的資料。

51. 如果你需要為學生提供一個小型資料集，可以看一下 DASL。比如解決這樣一個問題：由不孕雄性野馬主導野馬群體會不會降低野馬群體的規模？

52. GET-Evidence已經提供了可下載的公共基因組。我懷疑Steven Pinker的個人資料也在其中，或許你也可以克隆一個自己。

53. 說到基因組，已經有1000個基因組專案提供了大約260TB可供下載的資料。

54. 在列出的這些資料集中要說什麼是最小資料集，或許就是泰坦尼克號上男性和女性的倖存率，女乘客倖存率是男乘客的四倍。

55. 你想過對食物進行具體細分嗎？如果是，那就恭喜你了，你可以在此處下載相關資料集（感謝加拿大）。

57. 有一個與前者類似的資料庫，不過記錄是人體內代謝物的相關資料。我不確定你可以用這些資料做什麼，但也許有人可以用這個來進行病毒式營銷——xxx營養之道。

58. 參考能量解集資料集包括大概 500G關於家庭能量使用的資料。我們可以利用這些資料提高家庭能量效率，或者對家庭能量費用消耗進行視覺化展示。

59. 開發了一個新的影象壓縮演算法，需要資料進行測試？試試 CSAIL的小影象資料集。

60. 如果覺得這些影象太小了，試試 ImageNet資料集。如果你想訓練一個演算法識別獨角鯨，可以先用這些資料訓練。

62. 假設你在構建下一代圖書閱讀器，你希望段落可以自動與相應的維基百科文章相關聯。怎麼做？斯坦福大學和谷歌研究中心已經搭建了英文段落對映維基文章的資料庫，你可以下載他們的論文。

63. 俄羅斯搜尋引擎Yandex提供了一系列搜尋資料。也就是，如果一個人搜尋了關鍵詞，他們會點選哪些內容？不過，提供的都是俄羅斯人的搜尋結果。

64. 人們通常在維基百科上做哪些編輯修訂？也有資料庫是關於這一內容的。

66. Pew研究機構有很多免費的資料集，其中包括他們的 “全球態度專案”資料集。通過這個資料集我們可以瞭解：世界是否變得越來越進步？隨著時間的推移，人們對宗教的態度是如何變化的？

67. 談到公眾態度隨時間的變化，你可以下載從 1972年到2012年的綜合社會調查資料集，這個資料集也可以回答這兩個問題。

68. 有一個有趣的數學問題叫名人問題，你需要找出一個每個人都認識，但是不認識任何人的人。但生活中真的有名人問題麼？試試雅虎的明星臉集。

69. 需要2009年以來的十億個網頁？需要訓練一個從不停止的語言學習者NELL？是的，你可以做到。

70. 你知不知道你可以下載Arxiv上所有的PDF?一旦我們可以教會機器自然語言，我們就可以讓計算機閱讀所有文件為我們提取重點。

71. 如果你需要任何產業的經濟狀況資料，試試census.gov的行業統計資訊。如果經濟狀況不好，你會在資料中找到證據。

72. 你可以下載大量 Usenet帖子的資料。這些資料對某些文字分析專案或機器學習演算法（如拼寫檢查）很有用。

73. Nick Bostrom有一篇很有意思的文章 “預防人類滅絕是頭等大事”。該文章提出，考慮到人類滅絕的危害，再小的滅絕危險都是需要警惕的。通過分析從公元前2500年到2012年流星撞擊地球記錄，我們可以更好的應對這個問題。

75. 談到精神疾病，如果你想了解精神疾病是如何影響少數民族的，試試這個資料庫。

76. 現在有很多孤男寡女，其中不乏一些具備卓越分析的人。試試這個資料集“對比傳統夫婦和不傳統夫婦，美國人是如何遇到他們另一半的”，尋找遇到另一半的最好辦法。

77. 你可以通過此連結下載大量所謂的 “青少年健康”的資料，而且還包括了大量關係資料和生物指標資料。

78. 我有一個問題：現代工作與過去工作相比，哪個更糟糕？有五組調查調查了關於不同職業群體對該問題的回答，我已經看到了這樣一篇文章——“我們可以告訴你：昨天是不是比今天更好？”

79. 斯坦福大學有 3500萬條亞馬遜商品評價可供下載。你可以用這個做很多事情：使用它來改善推薦系統的演算法，找出評論中是否存在“模仿-領袖”效應（比如：早期的積極評價能否帶來更多的積極評價？）

80. 基於我過去的一些研究，搜尋關鍵字 “關於連環殺手的資料集”時發現兩個特點：1）很具體；2）很流行，但我希望這和人的品味沒有太大關係。當然，我找到了相關的資料集，在此特別感謝連環殺手資訊中心。

81. 這確實是一個讓人有些毛骨悚然的名字，Maryland大學還有個“全球恐怖主義資料庫”，這是一組由 11.3萬個恐怖事件組成的資料集。你可以在填完表後下載它。視覺化這些資料，對一些易受影響的地區進行預測，可以防止恐怖襲擊，建立提前預警系統。

82. MNIST資料庫是機器學習領域的一個經典。它是由一組帶標籤的手寫字元組成，這對OCR演算法來說是必不可少的。如今，一些演算法的判斷能力甚至比人類法官還要準確！在將來，我們會要求讓機器來做判決。

83. UCI為我們提供了撲克牌資料集。我不擅長玩撲克，但我敢肯定關於撲克一定會有一些有趣的分析可做。我聽說在撲克界人類仍然比機器更有優勢，但我覺得這種說法不太可靠。

84. UCI的另一個數據集：其中，影象被簡單的分為廣告和非廣告兩種。基於該資料集可以自動攔截廣告或進行垃圾郵件的檢測，也許還能應用到Google Glass中，過濾掉現實生活中的廣告，那一定是一件很酷的事情。我們看到的將不再是一個廣告牌，而是自然景觀的虛擬擴充套件。

85. 還記得Star Wars Kid崩潰事件嗎？Attack of the Show將它評為了史上第一病毒視屏。Andy Baio策劃了這一事件，還杜撰了“Star Wars Kid”這一詞，並將他的伺服器日誌公開發表。

86. 怎樣知道在Wordpress上誰連結到了誰（或者是某物）？視覺化網路是件很了不起的事情，但如果它能揭示一些關於“超節點”的資訊，或許會更好，“超節點”是指被許多節點連線或者連線到許多節點的節點（也許兩者都有）。如果你有興趣，也可以利用這些資料將不同的人歸類。

87. Obama是更喜歡石油大亨？還是極端環保主義者？或是玉米遊說團體？是誰在背後支援Herman Cain？我們已經可以下載到 2012總統競選的財務資料，用來分析哪些行業偏向於哪位候選人想必是也極好的。

90. 按州統計的香菸資料。肯塔基州抽的最多，西弗吉尼亞州第二。鑑於菸草的巨大社會危害，一個不錯的分析也許可以挽救很多人的生命。

92. 想要構建一個Reddit推薦引擎嗎？（或換個說法會更好——你覺得把那些愚蠢卻流行的意見過濾掉怎麼樣？）不錯，用Redditor完全可以做到這一點，Redditor會是個不錯的推薦引擎。

93. 全球健康資料。用這些資料來確定改善世界健康的方法會很有效，像血吸蟲病控制倡議一樣，這一專案被GiveWell列為評價最高的慈善機構之一。

94. 美國從1960年到2012年的犯罪事件。談論犯罪雖然在道德上令人反感，但在電視上節目開個玩笑還是無傷大雅的。

96. 你知道在加拿大，雜貨店的暢銷品是卡夫晚餐（aka通心粉和乳酪）嗎？我想知道它在比利時或者臺灣銷售的怎麼樣，這裡為我們提供了部分超市的資料。

97. 火狐瀏覽器使用情況的資料。記錄比如選項卡的使用數量，活躍狀態的時間，隱私標籤開啟的數目。雖然隱私標籤這一詞或許會讓一些人浮想聯翩，但用來比較網際網路與實際資料之間準確度還是很不錯的。

98. 非常強大的一個數據：Mozilla將Mozilla和Eclipse中發現的超過20萬個bug放到一個數據集中。我很想看看哪些bug導致的奔潰最常見，以及如何預防這些奔潰，當然也只有參考這些資料，才能設計出更好的程式語言。

99. 如果你對設計排程演算法感興趣的話，你會對這一訊息感興趣： Google開放了他們在叢集上作業排序的資料集。開發針對資料集的演算法可能會幫助未來驗證你的發現。畢竟，明天的桌面系統很可能會像今天資料中心一樣強大。

103. 誰是H1-B信用卡的接受者？你可能想知道一些國家是否接受信用卡，或者哪些公司接受大部分的信用卡消費。

105. 這裡有 1000年到1903年之間的所有地震資料。將這些資料“喂”給一個神經網路，也許能看到一些關於地震的預測。

106. 我常常想會不會有人做線上人格測試發現比大多數人更神經質？從很多線上性格測試專案中可以得到大量可用的資料，將性格測試的答案與大眾的答案進行比較，就可以找出那些比較神經質的人。

107. 髒話表

轉自：http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics

100+詭異的資料集，20萬Eclipse Bug、死囚遺言等

100+詭異的資料集，20萬Eclipse Bug、死囚遺言等

SSD Tensorflow訓練自己的資料集，遇到報錯absl.flags._exceptions.IllegalFlagValueError: flag --num_classes==: 求助

製作PASCAL VOC格式的檢測資料集，生成trainval.txt, train.txt, val.txt, test.txt檔案

製作PASCAL VOC格式的分割資料集，生成trainval.txt, train.txt, val.txt檔案

機器學習深度學習資料彙總（含文件，資料集，程式碼等）三

Facebook再爆資料洩露，9000萬用戶受影響

下載kaggle資料集， kaggle api（資料集）

lesson22-24 MNIST資料集，模組化搭建神經網路八股，手寫數字識別準確率輸出

【pytorch】自定義讀取資料集，使用txt文字

YOLOV3實戰2：訓練自己的資料集，你不可能出錯！

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

【TensorFlow】Win7下使用Object Detection API 訓練自己的資料集，並視訊實時檢測

阿里重磅開源！4000臺伺服器真實資料集，揭祕世界級資料中心

gluoncv 訓練自己的資料集，進行目標檢測

SDE連線，建立資料集，資料匯入以及資料匯出

使用coco資料集，faster rcnn類方法訓練出錯解決

資料預處理：原始資料集，特徵數值化，特徵值數值化

製作VOC型別資料集，生成txt，生成lmdb

Spark中元件Mllib的學習27之邏輯迴歸-多元邏輯迴歸，較大資料集，帶預測準確度計算

機器學習中訓練資料集，交叉驗證資料集，測試資料集的作用

100+詭異的資料集，20萬Eclipse Bug、死囚遺言等

相關推薦