1. 程式人生 > >Movielens資料集詳細介紹

Movielens資料集詳細介紹

下面以ml-100k資料集為例進行介紹:

最主要用的是u.data(評分)  |  u.item(電影資訊)  |  u.user(使用者資訊)

開啟資料集如下圖:


各檔案含義如下:

allbut.pl   --生成訓練和測試集的指令碼,其中除了n個使用者評分之外,所有訓練和測試集都在訓練資料中。

mku.sh    --從u.data資料集生成的所有使用者的shell指令碼。

u.data      -- 由943個使用者對1682個電影的10000條評分組成。每個使用者至少評分20部電影。使用者和電影從1號開始連續編號。資料是隨機排序的。

                    標籤分隔列表:user id | item id | rating | timestamp

u.genre   --型別列表。

u.info       --u.data資料集中的使用者數,電影數和評分數。

u.item      --電影資訊。標籤分隔列表:movie id | movie title | release date | video release date | IMDb URL | 

                   unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | 

                   Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western

                   最後19個欄位是流派,1表示電影是該型別,0表示不是;電影可以同時使用幾種流派。

                   電影id和u.data資料集中的id是一致的

u.occupation    --職業列表。

u.user      --使用者的人口統計資訊。標籤分隔列表:user id | age | gender | occupation | zip code

                  使用者id和u.data資料集中的id是一致的

u1.base   --資料集u1.base / u1.test到u5.base / u5.test都是將u.data資料集按照80% / 20%的比例分割的訓練集和測試集。

u1.test      u1,...,u5有互不相交的測試集;如果是5次交叉驗證,那麼你可以在每個訓練和測試集中重複實驗,平均結果。

u2.base     這些資料集可以通過mku.sh從u.data生成

u2.test

u3.base

u3.test

u4.base

u4.test

u5.base

u5.test

ua.base    --資料集ua.base, ua.test, ub.base, ub.test將u.data資料集分為訓練集和測試集,每個使用者在測試集中具有10個評分。

ua.test        ua.test和ub.test是不相交的。這些資料集可以通過mku.sh從u.data生成

ub.base

ub.test



相關推薦

Movielens資料詳細介紹

下面以ml-100k資料集為例進行介紹: 最主要用的是u.data(評分)  |  u.item(電影資訊)  |  u.user(使用者資訊) 開啟資料集如下圖: 各檔案含義如下: allbu

Pascal Voc資料詳細介紹

1.首先了解VOC2012資料集的內容 資料集下載後解壓得到一個名為VOCdevkit的資料夾,該資料夾結構如下:  . └── VOCdevkit #根目錄 └── VOC2012 #不同年份的資料集,這裡只下載了2012的,還有2007等其它年份的

CelebA資料簡單介紹,及做人臉識別時資料的處理

CeleA是香港中文大學的開放資料,包含10177個名人身份的202599張圖片,並且都做好了特徵標記,這對人臉相關的訓練是非常好用的資料集。網盤連結 資料包含了三個資料夾,一個描述文件如下: img資料夾下有兩個壓縮包 img_align_celeba.zip & img_al

CelebA資料詳細屬性統計

CelebA是香港中文大學提供的包含10,177個名人身份的202,599張人臉圖片的資料集,其提供了5個點的人臉關鍵點座標以及40個屬性,可以在Large-scale CelebFaces Attributes (CelebA) Dataset下載. 各屬性的含義請參考文末給出的連結,本文的程

機器學習(6) MovieLens資料

MovieLens資料集是一個關於電影評分的資料集,裡面包含了從IMDB, The Movie DataBase上面得到的使用者對電影的評分資訊,詳細請看下面的介紹。 介紹: links.csv: 檔案裡面的內容是幫助你如何通過網站id在對應網站上找到對應的電影連結的。資料格式如下:  m

Lind.DDD.Caching分散式資料快取介紹

回到目錄 戲說當年 大叔原創的分散式資料集快取在之前的企業級框架裡介紹過,大家可以關注《我心中的核心元件(可插拔的AOP)~第二回 快取攔截器》,而今天主要對Lind.DDD.Caching進行更全面的解決,設計思想和主要核心內容進行講解。其實在很多快取架構在業界有很多,向.net執行時裡也有Cache,

《Spark機器學習》筆記——基於MovieLens資料使用Spark進行電影資料分析

1、資料集下載https://grouplens.org/datasets/movielens2、資料集下檔案格式u.user使用者屬性檔案包含user.id使用者ID    gender性別   occupation職業    ZIP code郵編等屬性,每個屬性之間用|分

MovieLens資料做推薦(Python推薦系統二)

              思路:下載MovieLens的資料集,對資料集進行函式定義,定義各資料列的名稱,根據上一篇Python寫出簡單的推薦系統(一) 文中的recommendations.py 的使用者相似度進行推薦。               下載MovieLe

PDO進行sql語句預處理和操作結果詳細介紹(二)

<span style="font-size:18px;">一:預處理語句及其繫結引數執行insert try { $pdo=new PDO("mysql:host=localhost;dbname=xsphpdb", "root", "123

Python基本資料型別詳細介紹

Python提供的基本資料型別主要有:布林型別、整型、浮點型、字串、列表、元組、集合、字典等等 1、空(None) 表示該值是一個空物件,空值是Python裡一個特殊的值,用None表示。None不能理解為0,因為0是有意義的,而None是一個特殊的空值。 2、布林

MovieLens資料上用SVD進行評分預測【修正後】

參考了Yehuda Koren 08年的論文Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model程式碼如下:# -*- coding: UTF-8 -*- impo

用pandas探索Movielens資料

本文為譯文,原文連結: Let’s begin 1.資料集情況, # u.user檔案中為user_id,age,occupation,zip_code,格式如下: # u.data檔案

Pascal Voc資料詳細分析

前言 做深度學習目標檢測方面的同學怎麼都會接觸到PASCAL VOC這個資料集。也許很少用到整個資料集,但是一般都會按照它的格式準備自己的資料集。所以這裡就來詳細的記錄一下PASCAL VOC的格式,包括目錄構成以及各個資料夾的內容格式,方便以後自己按照VOC

資料探勘-MovieLens資料_電影推薦_親和性分析_Aprioro演算法

#!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb 7 14:38:33 2017 電影推薦分析: 使用 親和性分析方法 基於 Apriori演算法 推薦電影 @autho

Erlang資料型別詳細介紹(1)

本文介紹 Erlang 語言中使用的各種資料型別以及這些資料型別在 Erlang 虛擬機器內部的表示和實現。瞭解資料型別的實現可以幫助大家在實際開發過程中正確選擇資料型別,並且可以更好更高效地操作這些資料型別。本文對 Erlang 資料型別及實現的總結目前是最全面的,可以作為 Erlang 資料結構的參考手

MovieLens資料上用SVD進行評分預測

參考了Yehuda Koren 08年的論文Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model 程式碼如下: ''' Version:1.0 Created

【spark,RDD,1】彈性分散式資料RDD介紹

scala> val rdd = sc.textFile("hdfs://yarn1:8020/hmbbs_logs/access_2013_05_31.log") 16/04/27 21:45:41 INFO MemoryStore: ensureFreeSpace(219256) called w

Activiti工作流框架學習(一)之通用資料詳細介紹

文/朱季謙 Activiti工作流引擎自帶了一套資料庫表,這裡面有一個需要注意的地方: 低於5.6.4的MySQL版本不支援時間戳或毫秒級的日期。更糟糕的是,某些版本在嘗試建立此類列時將引發異常,而其他版本則不會。執行自動建立/升級時,引擎將在執行DDL時更改它。使用DDL檔案方法時,既可以使用常規版本也可以

docker群(二)--portainer+TLS安全連接docker主機(詳細介紹與使用心得)

chm log usr tls term 參考 正常 pac 文件中 http://blog.51cto.com/mysky0708/2298049承接上文,在生產中如何安全的鏈接docker主機呢?我們采用TLS秘鑰方式。步驟:第一部分:首先在docker主機上生成秘鑰,

解決---MISCONF Redis被配置為儲存RDB快照,但目前無法在磁碟上存留。可能修改資料的命令被禁用。請檢查Redis日誌,瞭解有關錯誤的詳細資訊。

出現bug: 在學習celery,將資料儲存到redis時出現下面的bug。 consumer: Cannot connect to redis://192.168.12.188:6379/3: MISCONF Redis is configured to save RDB sn