1. 程式人生 > >推薦系統實踐(八)--movieslens資料集簡介

推薦系統實踐(八)--movieslens資料集簡介

1、資料集簡介

MovieLens資料集包含多個使用者對多部電影的評級資料,也包括電影元資料資訊和使用者屬性資訊。

這個資料集經常用來做推薦系統,機器學習演算法的測試資料集。尤其在推薦系統領域,很多著名論文都是基於這個資料集的。(PS: 它是某次具有歷史意義的推薦系統競賽所用的資料集)。

2、資料介紹

1m的資料解壓後,可以看到四個主要的csv檔案,分別是links.csv,movies.csv,ratings.csv,tags.csv。links介紹了該資料集中的movieId和imdb、tmdb中電影的對應關係。tags是使用者的打標籤資料。本文的介紹主要基於ratings.csv 和 movies.csv

ratings資料
檔案裡面的內容包含了每一個使用者對於每一部電影的評分。資料格式如下:
userId, movieId, rating, timestamp
userId: 每個使用者的id
movieId: 每部電影的id
rating: 使用者評分,是5星制,按半顆星的規模遞增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零點後到使用者提交評價的時間的秒數
資料排序的順序按照userId,movieId排列的。

我們用pandans觀察資料的描述及前五行:

ratings = pd.read_csv('../data/ml-1m/ratings.csv',index_col=None
) ratings.describe() ratings.head(5)

輸出為:

movies資料
檔案裡包含了一部電影的id和標題,以及該電影的類別。資料格式如下:
movieId, title, genres
movieId:每部電影的id
title:電影的標題
genres:電影的類別(詳細分類見readme.txt)

我們用pandans觀察資料的前五行:

movies = pd.read_csv('../data/ml-1m/movies.csv',index_col=None)
movies.head(5)

輸出為:

合併資料集
我們可以根據movieId來合併兩個資料集

data = pd.merge(ratings,movies,on='movieId'
)

彙總每部電影的評分數量
合併資料集之後,我們可以看一下每部電影的評分數量,並按照降序進行排序:

rating_count_by_movie = data.groupby(['movieId','title'],as_index=False)['rating'].count()
rating_count_by_movie.columns=['movieId','title','rating_count']
rating_count_by_movie.sort_values(by=['rating_count'],ascending=False,inplace=True)
rating_count_by_movie[:10]

輸出為:

得到打分的平均值及方差

rating_stddev = data.groupby(['movieId','title']).agg({'rating':['mean','std']})
rating_stddev.head(10)

輸出為:

本文就先介紹到這裡吧!

相關推薦

推薦系統實踐()--movieslens資料簡介

1、資料集簡介MovieLens資料集包含多個使用者對多部電影的評級資料,也包括電影元資料資訊和使用者屬性資訊。這個資料集經常用來做推薦系統,機器學習演算法的測試資料集。尤其在推薦系統領域,很多著名論文都是基於這個資料集的。(PS: 它是某次具有歷史意義的推薦系統競賽所用的資料集)。2、資料介紹1m的資料解壓

推薦系統 會議+學者+課程+資料

前言 推薦系統是一個相當火熱的研究方向,在工業界和學術界都得到了大家的廣泛關注。希望通過此文,總結一些關於推薦系統領域相關的會議、知名學者,以及做科研常用的資料集、程式碼庫等,一來算是對自己涉獵推薦系統領域的整理和總結,二來希望能夠幫助想入門推薦系統的童鞋們提供一個參考,希

推薦系統研究相關的資料

因為最近要做一些關於推薦系統相關的研究,所以查閱了一些資料,總結一下市面上能用到推薦系統研究方面的常用公開資料集。 作者:張昭 haolexiao Jester線上笑話評分資料集 這個資料集是Jester這個伯克利專門用來收集資料集的線上笑話網

推薦系統實踐 0x05 推薦資料MovieLens及評測

# 推薦資料集MovieLens及評測 ## 資料集簡介 MoiveLens是GroupLens Research收集併發布的關於電影評分的資料集,規模也比較大,為了讓我們的實驗快速有效的進行,我們選取了釋出於2003年2月的 MovieLens 1M,這個資料集包含6000個使用者對4000個電影的一百萬

推薦系統實踐》第章 評分預測問題

TopN推薦,即給定一個使用者,如何給他生成一個長度為N的推薦列表,使該推薦列表能夠儘量滿足使用者的興趣和需求。TopN推薦非常接近於滿足實際系統的需求,實際系統絕大多數情況下就是給使用者提供一個包括N個物品的個性化推薦列表。 評分預測問題最基本的資料集就是使用者評分資料集。該資料集由使用者評分

推薦系統實踐》第六章 利用社交網路資料

6.1 獲取社交網路資料的途徑 6.1.1 電子郵件 我們可以通過分析使用者的聯絡人列表瞭解使用者的好友資訊,而且可以進一步通過研究兩個使用者之間的郵件往來頻繁程度度量兩個使用者的熟悉程度。 如果我們獲得了使用者的郵箱,也可以通過郵箱字尾得到一定的社交關係資訊。很多社交網站都在使用者註冊

推薦系統實踐》第四章 利用使用者標籤資料

目前流行的推薦系統基本上通過3種方式聯絡使用者興趣和物品。 第一種方式是利用使用者喜歡過的物品,給使用者推薦與他喜歡過的物品相似的物品,這就是前面提到的基於物品的演算法。 第二種方式是利用和使用者興趣相似的其他使用者,給使用者推薦那些和他們興趣愛好相似的其他使用者喜歡的物品,這是前面提到的基

推薦系統實踐》第二章 利用使用者行為資料

2.1 使用者行為資料簡介 在電子商務網站中行為主要包括網頁瀏覽、購買、點選、評分和評論等。 使用者行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋行為(implicit feedback)。顯性反饋行為包括使用者明確表示對物品喜好的行為。隱性

推薦系統實踐---第四章:利用使用者標籤資料

下面簡單介紹書中提到的問題以及有哪些解決辦法,方便大家對正本書有個整體的把握,同時我也會上傳這本書的高清PDF版,本來想不用積分下載,但是系統最少2個,要是哪位沒有積分,可以私信我。下載連結如下: 其他章節內容 前面介紹的CF演算法,利用的是使用者的行為資

推薦系統實踐(二) -- 利用使用者行為資料進行推薦(協同過濾)

本篇的思維導圖如下:1、使用者行為資料使用者行為資料在網站上最簡單的存在形式就是日誌,比如使用者在電子商務網站中的網頁瀏覽、購買、點選、評分和評論等活動。使用者行為在個性化推薦系統中一般分兩種——顯性反饋行為(explicit feedback)和隱性反饋 行為(implicit feedback)。顯性反饋

推薦系統實踐》__第2章__利用使用者行為資料

目錄 2.1 使用者行為資料簡介 2.2 使用者行為分析 2.2.1 使用者活躍度和物品流行度的分佈 2.2.2 使用者活躍度和物品流行度的關係 2.3 實驗設計和演算法評測 2.3.1 資料集 2.3.2 實驗設計 2.3.3 評測指標 2.4 基於鄰

公開課 | 達觀資料個性化推薦系統實踐

解決兩大問題 1.資訊過載:隨著大資料時代的來臨,網路中的資訊量呈現指數式增長,隨之帶來了資訊過載問題。 2.長尾問題:80%的收益來自20%的物品,也就是說80%的物品又很少的曝光機會。 主要設計目標 總體架構 推薦流程 熱門推薦:點選排行榜、購買排行榜等 可以用來解

推薦系統實踐---第六章:利用社交網路資料

下面簡單介紹書中提到的問題以及有哪些解決辦法,方便大家對正本書有個整體的把握,同時我也會上傳這本書的高清PDF版,本來想不用積分下載,但是系統最少2個,要是哪位沒有積分,可以私信我。下載連結如下: 其他章節內容 美國著名的第三方調查機構尼爾森調查了影響使用

推薦系統實踐》__第4章__利用使用者標籤資料

目錄   4.1 UGC標籤系統的代表應用 4.1.1 Delicious 4.1.2 CiteULike 4.1.3 Last.fm 4.1.4 豆瓣 4.1.5 Hulu 4.2 標籤系統中的推薦問題 4.2.1 使用者為什麼進行標註 4.2.2

推薦系統實踐》筆記 01 推薦系統簡介

# 推薦系統簡介 ## 什麼是推薦系統 由於當前社會由資訊匱乏轉變為資訊過載,需要篩選工具對資訊進行篩選,如個性化推薦系統,可以對那些沒有什麼明確需求的使用者進行推薦。如何從海量的資料中篩選出使用者真正感興趣的事情是一件非常具有挑戰性的事情。 **推薦系統的任務就是聯絡使用者和資訊,一方面幫助使用者發現對

推薦系統實踐

這樣的 info filename 新浪微博 的人 最簡 數量 strong 以及 推薦系統測評 實驗方法 離線實驗:準備訓練數據測試數據並評估; 用戶調查:問卷方式、和用戶滿意度調查 在線實驗:AB測試:AB測試是一種很常用的在線評測算法的實驗方法。它通過

推薦系統實踐(項亮)— 第3章 推薦系統冷啟動問題

inf 第一次 我們 特征 size 基本 度量 針對 給定 3.1 冷啟動問題簡介 問題分類: 用戶冷啟動 物品冷啟動 系統冷啟動   常用解決方案: 利用熱銷榜進行推薦 利用用戶註冊時的年齡、性別等數據做粗粒度的個性化 利用用戶社交數據為其推薦好友喜歡的物品 要求

推薦系統實踐(項亮)— 第5章 利用上下文資訊

  準確瞭解使用者的上下文資訊(包括時間、地點、心情等),對於提升推薦效果有重要作用。 5.1 時間上下文資訊 (1)時間效應 使用者的興趣是變化的 物品也有生命週期 季節效應 (2)系統時間特性的分析 資料集每天獨立使用者數的增長情況 系統物品的變化情況

推薦系統實踐(項亮)— 第7章 推薦系統例項

7.1 外圍架構 7.2 推薦系統架構 基於特徵的推薦系統架構 使用者喜歡的物品、使用者相似的使用者也可以抽象成特徵; 基於特徵的推薦系統核心任務就被拆解成兩部分,一個是如何為給定使用者生成特徵,另一個是如何根據特徵找到物品; 使用者特徵種類

推薦系統實踐(項亮)— 後記

mage 但是 分析 浪費時間 目標 擴展性 相關 分享 社交   在書的“後記”部分,作者列出了Strand研究人員總結的“推薦系統十堂課”,總結了他們設計推薦系統的經驗和教訓。 1. 確定你真的需要推薦系統   個人評價:不是為了推薦而推薦,推薦只是手段,關鍵看用戶價值