推薦系統1---bandits

阿新 • • 發佈：2018-12-07

import numpy as np
import matplotlib.pyplot as plt
import math
#老虎機個數
number_of_bandits=10
#老虎機的臂數
number_of_arms=10
#嘗試數
number_of_pulls=10000
#eps
epsilon=0.3
#最小的decay
min_temp = 0.1
#衰減率
decay_rate=0.999

def pick_arm(q_values,counts,strategy,success,failure):
	global epsilon
	#隨機返回一個臂
	if strategy=="random":
		return np.random.randint(0,len(q_values))
	#貪心演算法,每次都收益最大的那個臂
	if strategy=="greedy":
		best_arms_value = np.max(q_values)
		#返回收益最大的臂的位置，並隨機返回一個臂
		best_arms = np.argwhere(q_values==best_arms_value).flatten()
		return best_arms[np.random.randint(0,len(best_arms))]
	#加epsilon,egreedy中，epsilon不變，egreedy_decay，epsilon變化
	if strategy=="egreedy" or strategy=="egreedy_decay": 
		if  strategy=="egreedy_decay": 
			epsilon=max(epsilon*decay_rate,min_temp)
		if np.random.random() > epsilon:
			best_arms_value = np.max(q_values)
			best_arms = np.argwhere(q_values==best_arms_value).flatten()
			return best_arms[np.random.randint(0,len(best_arms))]
		else:
			return np.random.randint(0,len(q_values))
	#ucb,按照ucb公式，算每個臂的收益,取最大的收益的臂
	if strategy=="ucb":
		total_counts = np.sum(counts)
		q_values_ucb = q_values + np.sqrt(np.reciprocal(counts+0.001)*2*math.log(total_counts+1.0))
		best_arms_value = np.max(q_values_ucb)
		best_arms = np.argwhere(q_values_ucb==best_arms_value).flatten()
		return best_arms[np.random.randint(0,len(best_arms))]
	#thompson,利用beta分佈選擇臂
	if strategy=="thompson":
		sample_means = np.zeros(len(counts))
		for i in range(len(counts)):
			sample_means[i]=np.random.beta(success[i]+1,failure[i]+1)
		return np.argmax(sample_means)


fig = plt.figure()
ax = fig.add_subplot(111)
for st in ["greedy","random","egreedy","egreedy_decay","ucb","thompson"]:

	#定義 bandits個數*拉的次數的陣列
	best_arm_counts = np.zeros((number_of_bandits,number_of_pulls))

	#對於每個老虎機的臂來說
	for i in range(number_of_bandits):
		#隨機一個老虎機的臂的收益w，儲存最大收益
		arm_means = np.random.rand(number_of_arms)
		best_arm = np.argmax(arm_means)
		#初始化臂的收益
		q_values = np.zeros(number_of_arms)
		#初始化臂的拉動次數
		counts = np.zeros(number_of_arms)
		#初始化臂的成功次數
		success=np.zeros(number_of_arms)
		#初始化臂的失敗次數
		failure=np.zeros(number_of_arms)
		
		#對於每次拉動
		for j in range(number_of_pulls):
			#根據不同的策略，選擇臂a
			a = pick_arm(q_values,counts,st,success,failure)
			
			#當前臂a的收益
			reward = np.random.binomial(1,arm_means[a])
			#臂的次數+1
			counts[a]+=1.0
			#更新當前臂的收益
			q_values[a]+= (reward-q_values[a])/counts[a]
			#記錄成功的收益
			success[a]+=reward
			#記錄失敗的收益
			failure[a]+=(1-reward)
			#更新best_arm_counts[i][j]
			best_arm_counts[i][j] = counts[best_arm]*100.0/(j+1)
		epsilon=0.3

	#橫縱座標
	ys = np.mean(best_arm_counts,axis=0)
	xs = range(len(ys))
	ax.plot(xs, ys,label = st)

plt.xlabel('Steps')
plt.ylabel('Optimal pulls')

plt.tight_layout()
plt.legend()
plt.ylim((0,110))
plt.show()

[吳恩達機器學習筆記]16推薦系統1-2基於內容的推薦系統

16.推薦系統 Recommender System 覺得有用的話,歡迎一起討論相互學習~Follow Me 16.1 問題形式化Problem Formulation 推薦系統的改善

基於模型融合的推薦系統實現(1)：基於SGD的PMF

(1)PMF演算法 PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 Wi∗Uj W^i*U^j,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式 [0]:一開始我們要將訓練資料劃分為3部分,第一部

基於深度學習的推薦系統綜述 (arxiv 1707.07435) 譯文 3.1 ~ 3.3

基於深度學習的推薦：最先進的技術在本節中，我們首先介紹基於深度學習的推薦模型的類別，然後突出最先進的研究原型，旨在確定近年來最顯著和最有希望的進步。基於深度學習的推薦模型的類別 **圖 1：**基於深度神經網路的推薦模型的類別。為了提供該領域的全景圖，

推薦系統論文筆記（1）:Hybrid Recommender Systems:Survey and Experiments

一、基本資訊論文題目：《Hybrid Recommender Systems:Survey and Experiments》論文發表時間： 2002, 論文作者及單位：Robin Burke(California State University) 我的評分：5顆星

網易雲音樂推薦系統簡單實現系列（1）

筆者最近面試到了網易新聞推薦部門，考了一點推薦系統的知識，算是被虐慘了。於是乎自己怒補了一些知識。記錄一點關於推薦系統的知識和實現。音樂推薦系統，這裡的簡單指的是資料量級才2萬條，之後會詳細解釋。 1. 推薦系統工程師人才成長RoadMap

1.13《推薦系統實踐》筆記（上）

兩天一口氣看完《推薦系統實踐》，非常的爽，收穫非常的大。作者不僅是技術性介紹，更是結合自己的商業理解。加上作者長時間的競賽工作第一手經驗，本書價值非常大！！！《推薦系統實踐》筆記作者：項亮出版社：人民郵電出版社圖靈原創筆記作者：jinwan

1、好的推薦系統

一：推薦系統的目的：要發掘長尾提高銷售額，就必須充分研究使用者的興趣，而這正是個性化推薦主要解決的問題。推薦系統通過發掘使用者的行為，找到使用者的個性化需求，從而將長尾商品準確地推薦給需要它的使用者，幫助使用者發現那些他們感興趣但是又很難發現的商品

《推薦系統實踐》第1章好的推薦系統

1.1 什麼是推薦系統在使用者沒有明確需求時，幫助他們發現感興趣的新內容。推薦演算法的本質是通過一定的方式將使用者和物品聯絡起來，而不同的推薦系統利用了不同的方式。 1.2 個性化推薦系統的應用個性化推薦系統需要依賴使用者的行為資料。儘管不同的網站使用不同的推

【特徵工程】1 關於推薦系統中的特徵工程

在多數資料和機器學習的blog裡，特徵工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比賽的人認為這些搞feature工作繁瑣又不重要不如多堆幾個模型，想入手實際問題的小朋友又不知道怎麼提取feature來建模型。我就用個性化推薦系統

項亮《推薦系統實踐》讀書筆記1-推薦系統評價指標

推薦系統評價指標 1.評分預測預測準確度：均方根誤差（RMSE）：平均絕對誤差（MAE）：關於這兩個指標的優缺點，Netflix認為RMSE加大了對預測不準的使用者物品評分的懲罰（平方項的懲罰），因為對系統的評測更加苛刻。研究表明，如果

餓了麼推薦系統的從0到1

隨著移動網際網路的發展，使用者使用習慣日趨碎片化，如何讓使用者在有限的訪問時間裡找到想要的產品，成為了搜尋/推薦系統演進的重要職責。作為外賣領域的獨角獸, 餓了麼擁有百萬級的日活躍使用者，如何利用資料探勘/機器學習的方法挖掘潛在使用者、增加使用者粘性，已成為迫切

網易雲音樂推薦系統學習（1）

音樂推薦的如下特點。物品空間大　物品數很多，物品空間很大，這主要是相對於書和電影而言。消費每首歌的代價很小　對於線上音樂來說，音樂都是免費的，不需要付費。物品種類豐富　音樂種類豐富，有很多的流派。聽一首歌耗時很少　聽一首音樂的時間成本很低，不太浪費使用者的時間，而且使用者大都把音樂作為背景聲音，同時進行其他工

推薦系統1---bandits

推薦系統1---bandits

推薦系統(1)

[吳恩達機器學習筆記]16推薦系統1-2基於內容的推薦系統

推薦系統1

推薦系統(1)-計算歐式距離分數

推薦系統1—好的推薦系統的效能

基於模型融合的推薦系統實現(1)：基於SGD的PMF

推薦系統3-1

推薦系統演算法理論與實踐（1）

基於深度學習的推薦系統綜述 (arxiv 1707.07435) 譯文 3.1 ~ 3.3

推薦系統論文筆記（1）:Hybrid Recommender Systems:Survey and Experiments

網易雲音樂推薦系統簡單實現系列（1）

1.13《推薦系統實踐》筆記（上）

1、好的推薦系統

《推薦系統實踐》第1章好的推薦系統

【特徵工程】1 關於推薦系統中的特徵工程

推薦系統實踐——第1章好的推薦系統

項亮《推薦系統實踐》讀書筆記1-推薦系統評價指標

餓了麼推薦系統的從0到1

網易雲音樂推薦系統學習（1）

推薦系統1---bandits

相關推薦