用MovieLens資料集做推薦（Python推薦系統二）

阿新 • • 發佈：2019-01-06

思路：下載MovieLens的資料集，對資料集進行函式定義，定義各資料列的名稱，根據上一篇Python寫出簡單的推薦系統（一）文中的recommendations.py 的使用者相似度進行推薦。

下載MovieLens的地址：http://grouplens.org/datasets/movielens/

（選擇ml-100k.zip）, 下載後的路徑可以是和recommendations.py相同，也可是任意Python下面的其他地方，後面會針對兩種情況做相關說明。

將下列Python 程式碼新增到之前recommendations.py 裡面：

def loadMovieLensTrain(filename='u1.base'):
    str1 ='./ml-100k/'     

    #載入資料
    prefs={}
    for line in open(str1+filename,'r'):
        (user,movieid,rating,ts)=line.split('\t')
        prefs.setdefault(user,{})
        prefs[user][movieid]=float(rating)
    return prefs

def loadMovieLensTest(filename='u1.test'):                      
    str1 ='./ml-100k/'

    #載入資料
    prefs={}
    for line in open(str1+filename,'r'):
        (user,movieid,rating,ts)=line.split('\t')
        prefs.setdefault(user,{})
        prefs[user][movieid]=float(rating)
    return prefs             

if __name__=="__main__":
    print ("""這個部分可以進行上面2個函式測試""")

    trainDict= loadMovieLensTrain()
    testDict = loadMovieLensTest()

    print (len(trainDict))
    print (len(testDict))
    print ("""測試通過""")

這裡的str1=’./ml-100k/’ 表明的是相對路徑，此時的ml-100資料夾必須是和recommendations.py 檔案一個路徑。如果不在一個路徑，因為執行的最終是recommendations.py檔案，所以用的是ml-100k 全路徑名，例如：

str1:’E:/Python/ml-100k’

先執行進行了更新的recommendations.py 檔案，得到測試的結果：

>>>

這個部分可以進行上面2個函式測試

943

459

測試通過

表明函式式正確的，如果出現提示說’u1.base’ 或’u1.test’的格式不能讀取，則可用Notepad++ 修改格式。（具體見

Notepad++修改檔案編碼格式）

檢視loadMovieLensTrain裡的列表

>>> import recommendations

>>> prefs =recommendations.loadMovieLensTrain()

>>> prefs['1']

返回所有對應的評分資料列表

對id號為1的使用者推薦三個物品：

>>>recommendations.getRecommendations(prefs,'1')[0:3]

[(5.000000000000001, '1293'), (5.0,'1653'), (5.0, '1599')]

用MovieLens資料集做推薦（Python推薦系統二）

思路：下載MovieLens的資料集，對資料集進行函式定義，定義各資料列的名稱，根據上一篇Python寫出簡單的推薦系統（一）文中的recommendations.py 的使用者相似度進行推薦。下載MovieLe

SSD目標檢測(3)：使用自己的資料集做預測（詳細說明附原始碼）

前言：上兩章已經詳細介紹了SSD目標檢測(1)：圖片+視訊版物體定位（附原始碼），SSD目標檢測(2)：如何製作自己的資料集（詳細說明附原始碼）。由於SSD框架是開源的程式碼，自然有很多前輩研究後做了改進。我也不過是站在前輩的肩膀上才能完成這篇部落格，在這裡表示

深度學習入門專案：用keras構建CNN或LSTM對minist資料集做簡單分類任務

深度學習入門專案：用keras構建CNN或LSTM或RNN對Minist資料集做簡單分類任務參考keras中文文件 ——keras：是一個高階神經網路庫，用 Python 語言寫成，可以執行在 TensorFlow 或者 Theano 之上（即以此為後端）。

用基於center loss的人臉識別模型對LFW人臉資料集進行評測（c++）

接上一篇博文，這篇博文主要是進行人臉識別中的第③和第四個步驟：特徵提取以及相似度計算。 center loss是2016的一篇ECCV論文中提出來的，A Discriminative Feature Learning Approach for De

在MovieLens資料集上用SVD進行評分預測【修正後】

參考了Yehuda Koren 08年的論文Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model程式碼如下：# -*- coding: UTF-8 -*- impo

用pandas探索Movielens資料集

本文為譯文，原文連結： Let’s begin 1.資料集情況， # u.user檔案中為user_id，age，occupation，zip_code，格式如下： # u.data檔案

資料探勘-MovieLens資料集_電影推薦_親和性分析_Aprioro演算法

#!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Tue Feb 7 14:38:33 2017 電影推薦分析: 使用親和性分析方法基於 Apriori演算法推薦電影 @autho

機器視覺 OpenCV—python 影象資料集獲取工具（視訊取幀）

一、前言之前在做影象分類的時候，人臉識別（開原始碼）的練手，資料集獲取麻煩（沒人願意將自己照片給人家做資料集），於是就用自己造資料集，但是拍照拍幾百張訓練效果不好，也嫌麻煩，乾脆就是視訊取幀的方式，在這之前使用專門的軟體。不過opencv自帶了視訊處理的API

在MovieLens資料集上用SVD進行評分預測

參考了Yehuda Koren 08年的論文Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model 程式碼如下： ''' Version:1.0 Created

VOC資料集做LMDB格式（三種格式的資料集做lmdb）

最近在做訓練的時候遇到了做訓練集的問題，所以總結一下自己做資料集的思路與操作。ubuntu16.04.一、VOC資料集格式：做檢測的時候會遇到，每一個圖中可能有幾個目標，每個目標都有一個位置資訊儲存到xml檔案中，如果想將此類資料做成lmdb格式，首先就是要標記影象，得到每一

【13】Caffe學習系列：資料視覺化環境（python介面)配置

caffe程式是由c++語言寫的，本身是不帶資料視覺化功能的。只能藉助其它的庫或介面，如opencv, python或matlab。更多人會使用python介面來進行視覺化，因為python出了個比較強大的東西：ipython notebook, 現在的最新版本改名叫jupyter notebook

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

基於資料探勘的高校個性化學生管理方案研究——以A高校資料集為例（未發表，使用或引用前請提前告知）

基於資料探勘的高校個性化學生管理方案研究——以A高校資料集為例馬鑫摘要：高校資訊系統中儲存著大量產生頻率非常迅速且型別繁雜的資料，傳統的高校學生管理模式已很難適用於我國現階段高校學生管理。依據資料探勘演算法理論，採用k-prototypes聚類演算法代替傳統的人工貼標

mongodb在插入資料環節避免資料重複的方法（python）

db['ceshi'].update({'link':job_link},{'$set':product},True) 假設link欄位不想重複，那麼當這個link第一次遇到時，因為True就是預設link不存在的時插入，如果是重複遇到這個link時，會更新link的值。如果是insert

【NLP】【八】基於keras與imdb影評資料集做情感分類

【一】本文內容綜述 1. keras使用流程分析（模型搭建、模型儲存、模型載入、模型使用、訓練過程視覺化、模型視覺化等） 2. 利用keras做文字資料預處理【二】環境準備 1. 資料集下載：http://ai.stanford.edu/~amaas/data/sentiment/

keras對貓、狗資料集進行分類（三）

使用已訓練模型對貓狗圖片進行測試，以及視覺化模型訓練過程。示例程式碼： # # 視覺化卷積神經網路 # # 人們常說，深度學習模型是“黑盒子”，學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的，但對於小行星來說絕對不是這樣。 # 由con

用Iris資料集的屬性畫圖

1、Iris資料集這個資料集很有名，很多實驗都用它來做，這裡我用的資料集，第一列為0、1、2代表label，後面四列是不同的資料，為了方便，將後面的屬性都擴大十倍，變為整數。 2、MATLAB程式碼以下使用第二、三列屬性，畫了一個二維的影象 filename

機器學習(6) MovieLens資料集

MovieLens資料集是一個關於電影評分的資料集，裡面包含了從IMDB, The Movie DataBase上面得到的使用者對電影的評分資訊，詳細請看下面的介紹。介紹： links.csv: 檔案裡面的內容是幫助你如何通過網站id在對應網站上找到對應的電影連結的。資料格式如下： m

[機器學習] 3: TensorFlow練習+MNIST手寫資料集+softmax實驗（未完待續）

前言 MNIST是一個入門級的計算機視覺資料集，是NIST的一個子集，常被用於機器學習的入門實踐。它包含各種手寫數字圖片，同時也包含每一張圖片對應的標籤，告訴我們這個是數字幾。比如，上面這四張圖片的標籤分別是5，0，4，1 本文目標是練習tensorflow

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

用MovieLens資料集做推薦（Python推薦系統二）

相關推薦