1. 程式人生 > >推薦系統研究相關的資料集

推薦系統研究相關的資料集

因為最近要做一些關於推薦系統相關的研究,所以查閱了一些資料,總結一下市面上能用到推薦系統研究方面的常用公開資料集。

作者:張昭 haolexiao

Jester線上笑話評分資料集

這個資料集是Jester這個伯克利專門用來收集資料集的線上笑話網站http://eigentaste.berkeley.edu/,類似於外文的糗事百科,不過更側重於冷笑話。然後每個笑話展示後用戶可以依據好笑程度打分。然後伯克利把這個資料集公開了。資料集地址:

資料集中包含笑話文字本身,使用者給不同笑話的打分情況。資料集由少到多分為:

  1. item Dataset 1: Over 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users: collected between April 1999 - May 2003.
  2. item Dataset 2: Over 1.7 million continuous ratings (-10.00 to +10.00) of 150 jokes from 59,132 users: collected between November 2006 - May 2009.
  3. item Dataset 2+: An updated version of Dataset 2 with over 500,000 new ratings from 79,681 total users: data collected from November 2006 - Nov 2012
    都可以在網站上下載到

MovieLens電影評分資料集

這個也是一個非常經典的資料集,資料集地址:

有使用者對電影的評分,tag資料量也蠻大的,有24,000,000 ratings and 670,000 tag applications applied to 40,000 movies by 260,000 users

Last.fm音樂推薦資料集

這個是資料集還是蠻豐富的,有使用者資訊,使用者聽藝術家資訊歌曲的資訊,還有使用者對藝術家打標籤的侵襲,更有使用者之間好友資訊,資料量1892 users,17632 artists
資料集地址:

這個資料集拿來做推薦的話,可以把藝術家播放次數作為使用者的評分

Book-Crossing圖書評分資料

這個資料集包含110萬個使用者的110萬本書的110萬冊評價。評級範圍從1到10,還包括隱性評級。
資料集地址:

不過這個資料集太稀疏了【聽說是現有出名的資料集中最稀疏的】

Netf電影評分資料集

這個是曾經Netflix的一個比賽中提供的資料集,有480,000 使用者對超過17,000部電影,總共超過1億條打分資料,600多M還是非常良心的。
資料集地址:

libimseti約會資料集

類似於一個世紀佳緣網站的約會網站,使用者對其他使用者的簡歷的打分資料。總共168,791份簡歷,135,359的使用者去打分,總共有17,359,346份評分
資料集地址:

Amazon Fine Food Reviews資料集

這個是kaggle提供的一個數據集,亞馬遜使用者對食物的評分資料,總共有568,454條評價,還包含評分,還有其他使用者覺得是否評價是否有用。

其他人總結的一些資料集

找資料集的時候,找到一些人總結的git,可以供參考: