什麽是機器學習
阿新 • • 發佈:2018-02-07
大量 alt 啤酒 com 無需 nsh 我們 需要 發現 ,也就是找尋數據集合的內在聯系
啤酒尿布
沃爾瑪根據它每天記錄的大量的客戶消費數據進行分析,發現了,購買了啤酒的顧客更可能同時購買尿布。所以他們把尿布和啤酒放到一塊,結果大幅度的提高了這兩者的銷售額。
購買尿布和購買啤酒看上去毫無關系,但是通過用戶購物數據作為樣本發現了其中的關聯和規律,對於沃爾瑪而言無需知道規律背後的本質,只需要發現這個規律就可以大幅度的提升銷售額,這就足夠了。
其實機器學習的核心思想也大概如此,就是讓計算機程序隨著數據樣本的積累,可以自動獲取精確的判斷和歸納能力。
可以把我們要進行分析的數據叫做訓練集,把現象歸納的過程叫訓練
在啤酒尿布的故事中,沃爾瑪使用的是一種叫Apriori的算法,可以用來挖掘關聯數據中的頻繁項集
另外我們還知道瑞雪兆豐年的故事,也就是勞動人民通過大量的現象進行分析,如果下了雪,很大程度上明年就是一個豐年。
瑞雪兆豐年和啤酒尿布有本質的區別,
瑞雪兆豐年是對一個新現象進行結果預測
啤酒尿布是對相關性的挖掘。
下圖是對兩個故事的流程進行歸納。
對於瑞雪兆豐年來說,可以根據多年的降雪與來年的豐收情況進行分析,通過某種算法進行訓練,然後得到規律也即假設模型。
根據降雪情況推斷出下一年的收成情況,這就是回歸
對於啤酒尿布屬於完全不一樣的機器學習類型,只需要找出關聯關系,並不需要回歸。
所以這兩種其實是完全不同的機器學習方法。
我們可以按照方式不同分為三類:
- 有監督學習(supervised learning)
也就是已經有了一部分輸入數據和數據數據之間的對應關系,可以生成一個函數,可以通過輸入獲得輸出。
比如瑞雪兆豐年,頭年的降雪量就是輸入,來年產量就是輸出。 - 無監督學習:直接對輸入進行建模,尋找關聯。
比如啤酒尿布只需要尋找相關性,不需要目標輸出。 - 半監督學習:
就是上面兩種方法綜合起來。我們可以對有輸入輸出的數據+只有輸入的數據進行綜合分析
參考
本文為什麽是機器學習的筆記
什麽是機器學習