MovieLens 電影分類中的頻繁項集和關聯規則

阿新 • • 發佈：2020-10-12

場景：當用戶給自己喜歡的電影打標籤時，我們可以通過關聯規則進行標籤推薦，從而提升使用者體驗。

資料集：MovieLens

下載地址：https://www.kaggle.com/jneupane12/movielens/download

主要使用的檔案：movies.csv

格式：movieId title genres

完整程式碼：

import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

# 資料載入
movies = pd.read_csv(' 
./movies.csv')
print(movies.head())
# 檢視genres型別列的資料
print(movies['genres'])
# 將genres進行one-hot編碼（離散特徵有多少取值(就是說整個資料集有多少個電影型別)，就用多少維來表示這個特徵）
# 使用'|'來告訴程式，電影型別之間使用'|'隔開的
# drop('genres', 1) 先把genres列去掉，後面分割之後再拼接上
# 先把genres轉換為字串型別，然後 get_dummies(sep='|') 按豎線進行分割
movies_hot_encoded = movies.drop('genres 
', 1).join(movies.genres.str.get_dummies(sep='|'))
# 展示0-1熱編碼之後的結果
print(movies_hot_encoded)
# 設定大一點，有些列顯示出來就不是省略號，就可以看到資料
pd.options.display.max_columns = 100
print(movies_hot_encoded.head())

# 分隔線啊啊啊啊啊啊啊啊啊
print("#################################")

# movies_hot_encoded是0-1熱編碼之後的資料集

# 將movieId, title同時設定為index(此操作可以把預設生成的第一列index0,1,2,3,...替換掉) 

movies_hot_encoded.set_index(['movieId', 'title'], inplace=True)
print(movies_hot_encoded.head())
# 挖掘頻繁項集，最小支援度為0.02
itemsets = apriori(movies_hot_encoded, use_colnames=True, min_support=0.02)
# 按照支援度從大到小進行輸出(預設ascending=True,我們改成False就行了)
itemsets = itemsets.sort_values(by="support", ascending=False)
print('-' * 20, '頻繁項集', '-' * 20)
print(itemsets)
# 根據頻繁項集計算關聯規則，設定最小提升度為2
rules = association_rules(itemsets, metric='lift', min_threshold=2)
# 按照提升度從大到小進行排序
rules = rules.sort_values(by="lift", ascending=False)
# 得到的關聯規則本地儲存
rules.to_csv('./rules.csv', index=False)
print('-' * 20, '關聯規則', '-' * 20)
print(rules)

今天天氣不錯，如有疏漏，還望批評指正。

MovieLens 電影分類中的頻繁項集和關聯規則

場景：當用戶給自己喜歡的電影打標籤時，我們可以通過關聯規則進行標籤推薦，從而提升使用者體驗。

關聯分析--概述（項集、關聯規則、支援度、置信度、提升度）

關聯分析概述關聯分析是資料探勘的核心技術之一，其關聯規則模型及資料探勘演算法是由 IBM 公司Almaden研究中心的R.Agrawal在1993年首先提出的，目的是從大量資料中發現項集之間的有趣關聯或相互關係，其中最經典

機器學習實戰---使用FP-growth演算法來高效發現頻繁項集

一：參考資料（一）機器學習實戰（二）以下3篇簡單瞭解 https://baijiahao.baidu.com/s?id=1661651339862291744&wfr=spider&for=pc（不全，但簡單）

資料探勘演算法和實踐（二十）：sklearn中通用資料集datasets

技術標籤：機器學習/資料探勘實戰資料探勘機器學習資料分析python 作為資料探勘工具包sklearn不但提供演算法實現，還通過sklearn.datasets模組提供資料集使用，根據需要有3種資料集API介面來獲取資料集，分別是

Netflix預告2021會有40部動畫劇集和電影化作品上架

Netflix 要充實影片庫的方向，並不僅限於真人電影，動畫也是一個重要的角色。這個串流平臺就在剛剛於東京進行的 AnimeJapan 2021 Expo 活動上，宣佈他們會在本年內上架 40 部動畫和電影化作品，數量較去年多了一倍！

Java中異常的概念和分類

異常就是程式在編譯時發生的意想不到的情況，一般而言分為兩類:錯誤(Error)和異常(Exception)

MySQL資料庫中的高階(進階)語句：VIEW檢視、聯集和常見計算

一、VIEW（檢視） 1.1 概念可以被當作是虛擬表或儲存查詢檢視跟表格的不同是，表格中有實際儲存資料，而檢視是建立在表格之上的一個架構，它本身並不實際儲存資料。臨時表在使用者退出或同資料庫的連線斷開後就自

Redis中記憶體溢位問題和持久化方法

一、記憶體溢位問題解決辦法 1. 設定key的過期時間 2. 按需求使用8種資料淘汰策略

細說 Http 中的 Keep-Alive 和 Java Http 中的 Keep-Alive 機制

什麼是 Keep-Alive 這個詞看著有點熟，很多地方好像都見過。 TCP 的 KeepAlive，Http 的 KeepAlive，現在就連一些前端框架都有類似 KeepAlive 的東西了（比如 VUE.js，保持路由）。

20 個案例教你在 Java 8 中如何處理日期和時間?

前言前面一篇文章寫了《SimpleDateFormat 如何安全的使用？》,裡面介紹了 SimpleDateFormat 如何處理日期／時間，以及如何保證執行緒安全，及其介紹了在 Java 8 中的處理時間／日期預設就執行緒安全的 DateTimeForm

Kotlin中的物件表示式和物件宣告的具體使用

Kotlin的物件表示式與Java中的匿名內部類的主要區別：匿名內部類只能指定一個父型別，但物件表示式可以指定0~N個膚型別。

Mongodb副本集和分片示例詳解

前言因為之前沒用過mongo，所以最近的開發踩了不少坑，現在熟練了不少。 mongo在許多地方用起來還有許多不如意的地方，比如不知道如何加行鎖，雖然mongo本身可以加寫鎖，多寫的時候保證原子性，但不能向mysql在事務

從MySQL全庫備份中恢復某個庫和某張表的方法

在Mysqldump官方工具中，如何只恢復某個庫呢？全庫備份 [root@HE1 ~]# mysqldump -uroot -p --single-transaction -A --master-data=2 >dump.sql

oracle中的greatest 函式和 least函式示例程式碼

greatest (max(one),max(two),max(three)) 求多列的最大值，oracle中的greatest 函式已知表TB的資料如下

淺析Oracle中sys、system和Scott使用者下的資料庫連線問題

system預設:manager sys預設:change_on_install 使用SQL Plus登入資料庫時，system使用密碼manager可直接登入。

Windows 64 位 mysql 5.7以上版本包解壓中沒有data目錄和my-default.ini及服務無法啟動的快速解決辦法(問題小結)

LZ初學SQL，本來以為開源的安裝很簡單，但是中間出現了一些問題，記錄下來，希望能幫助到他人。

Sql查詢MySql資料庫中的表名和描述表中欄位(列)資訊

下面為大家介紹利用SQL查詢語句獲取Mysql資料庫中表的表名，表描述、欄位ID、欄位名、資料型別、長度、精度、是否可以為null、預設值、是否自增、是否是主鍵、列描述

Oracle中的translate函式和replace函式的用法詳解

translate函式語法： translate(expr,from_strimg,to_string) 簡介： translate返回expr，其中from_string中的每個字元的所有出現都被to_string中的相應字元替換。expr中不在from_string中的字元不會被替換。如果exp

詳解mysql中的冗餘和重複索引

mysql允許在相同列上建立多個索引，無論是有意還是無意，mysql需要單獨維護重複的索引，並且優化器在優化查詢的時候也需要逐個地進行考慮，這會影響效能。

oracle中萬用字元和運算子的使用方法介紹

用於where比較條件的有：　　等於：=、<、<=、>、>=、<> 　　包含：in、not in exists、not exists

MovieLens 電影分類中的頻繁項集和關聯規則

相關推薦