白話一下什麼是決策樹模型
阿新 • • 發佈:2019-01-31
有一天,小明無聊,對宿舍玩CS的舍友進行統計,結果剛記下四行,被舍友認為影響發揮,給踢到床下去了,讓我們看看可憐的小明的記錄: 2. 那我們再看子彈少的情況下,武器靠刀子,當血多時候,他還是會打一打得,但是血少,就立即逃跑隱蔽了。 這是我們大腦直覺上去分析,既然本文我是想聊一聊決策樹,那麼我們就用決策樹來對小明的這些資料小試牛刀一下,順便來慰藉一下小明(從小到大我們已經看過無數的小明瞭,這裡再借用一下大度的小明)。 我們現在將資料分為兩塊: X = {武器型別,子彈數量,血} Y = {行為} 我們建立這顆決策樹的目的就是,讓計算機自動去尋找最合適的對映關係,即:Y = f(X),所謂聽上去大雅的“資料探勘”學科,幹得也差不多就是這回事,X我們稱之為樣本,Y我們稱之為結果(行為/類)。 樣本是多維的,X = {x1,x2,...xn},如本例:X = {x1=武器型別,x2=子彈數量,x3=血},我們就是要通過這些不同維度的觀測記錄資料,和應對的不同結果,找到規律(對映關係),舉個例子: X = {天氣,溫度,溼度,女友約會} -> Y = {是否答應兄弟下午去打籃球} X = {老媽說你是胖子,老婆說你是胖子,自己上秤評估自己體重} -> Y = {去辦健身卡減肥} 這樣來說,X的多維不同的資料,大個比方,更像是很多大臣,那麼我們就是要根據這些大臣的意見,來決策,如本例: >> 左大臣:武器型別 >> 中大臣:子彈數量 >> 右大臣:血 這些大臣每個人都有想法,左右著皇帝繼續戰鬥還是撤退,但是三個也不能全信,那麼我們就要根據他們的陳年老帳(訓練樣本)來評判他們的話語的重要性,當然,優先順序高的肯定話語是有重量的,我們先提前來預覽一下這個例子訓練出來的決策樹的樣子: 這個根據小明的資料訓練出來的決策樹是不是和我們剛才拍腦門分析出來的結果差不多呢?看,子彈多就開打,子彈少,在看看用什麼武器,如果又沒子彈又用機槍,那鐵定跑,如果用小刀,在掂量一下自己血厚不厚,厚則打,不厚則逃,看來決策樹分析的結果還是可以的啊,接下來,我們來研究研究,計算機(這個只會重複人們給它設定的程式碼的傢伙)是如何實現這樣的分析的。 既然是三個大臣提意見{左大臣:武器型別,中大臣:子彈數量,右大臣:血},那麼我們要分析一下歷史資料(訓練資料)他們哪個話更靠譜: 我們先單純的看看左大臣的歷史戰績(統計訓練樣本): 機槍 -> 戰鬥 機槍 -> 逃跑 小刀 -> 戰鬥 小刀 -> 逃跑 用機槍,你戰鬥逃跑的概率都是50%,用刀子,你亦似打似逃!看來這個大臣立場不堅定啊! 再看看中大臣的: 子彈多 -> 戰鬥 子彈少 -> 逃跑 子彈少 -> 戰鬥 子彈少 -> 逃跑 用機槍,你戰鬥概率是100%,用刀子,你33.3%打,你66.6%撤!這位大臣似乎堅定了一些。 再看看右大臣的: 血少 -> 戰鬥 血多 -> 逃跑 血多 -> 戰鬥 血少 -> 逃跑 和左大臣一樣,立場不堅定,50:50啊! 這樣,中大臣的話的重量就提升了,因此決策書的第一層就重用中大臣吧(中大臣變成一品大員) 計算機是怎麼來做到這一步的呢?且讓我一步一步講: 決策樹訓練中,有一個很重要的尺子,來衡量大臣的可信度,這個尺子,就是資訊理論的熵(Entropy),這個熵是何許人也,竟然朝廷大臣的可信度竟然用次來衡量,讓我們對他做個自我介紹吧: 熵,洋名為(Entropy),乃測量資訊的混亂程度為職,縱橫科學界各門學術之中,為人低調,儉樸,就一個很短的公式:E = sum(-p(I)*log(p(I))),I=1:N(N類結果,如本例兩種,戰鬥或逃跑),當資訊一致,所有樣本都屬於一個類別I,那麼熵為0,如果樣本完全隨機,那麼熵為1,表明這個臣子對這種狀態的預測就是胡言亂語。 OK,熵,告訴我你對這個資料的看法: E(機槍) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1 E(小刀) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1 E(子彈多) = -(1/1)Log2(1/1) - (0/1)Log(0/1) = 0 + 0 = 0 E(子彈少) = -(1/3)Log2(1/3) - (2/3)Log(2/3) = 0.5283 + 0.39 = 0.9183 E(血多) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1 E(血少) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1 那麼我們怎麼用這個熵來衡量大臣(每維資料)的可信度呢,這裡還要再引出一位仁兄,其是熵的上級,他熟知熵的能力,很會用熵,他就是資訊增益(Information Gain),我們來看看這位上級是如何用熵來衡量的: Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v))) OK,Information Gain,說說你是怎麼評估這個例子的三位大臣的! Gain(武器型別) = E(S) - (2/4)*E(機槍) - (2/4)*E(小刀) = 1 - (2/4)*1 - (2/4)*1 = 0 Gain(子彈數量) = E(S) - (1/4)*E(子彈多) - (3/4)*E(子彈少) = 1 - (1/4)*0 - (3/4)*0.9183 = 0.3113 Gain(血量) = E(S) - (2/4)*E(血多) - (2/4)*E(血少) = 1 - (2/4)*1 - (2/4)*1 = 0 接著,計算機通過資訊增益結果,選擇最大的,作為一品大員 且看一品大員對子彈多的情況下料事如神(暫且不說本例樣本少),但是其在子彈少的情況下,決策還是不行的,那麼,再用同樣的方法,再去選擇二品,三品,這就是決策樹的訓練,呵呵,不知有沒有幫助各位理解 |