人工智慧----機器學習基礎
阿新 • • 發佈:2019-02-17
第一、弱監督學習
監督學習、非監督學習、半監督學習這些概念都比較好理解且常見。何為弱監督學習?
看起來就是指樣本有標記,可能不止一個,還可能不正確,其訓練的目的是為了將結果往好的標記上靠。感覺是非監督學習的樣本上加了一些有意義的雜質。
第二、模型質量評價
這裡需要記住以下幾點:
1、正確率不是衡量模型好壞的唯一標準;
反例如下:
正確率確實是一個很直觀很好的評價指標,但是有時候正確率高並不能完全代表一個演算法 就好。比如對某個地區進行地震預測,地震分類屬性分為 0:不發生地震、1 發生地震。我們 都知道,不發生的概率是極大的,對於分類器而言,如果分類器不加思考,對每一個測試樣例 的類別都劃分為 0,達到 99%的正確率,但是,問題來了,如果真的發生地震時,這個分類器 毫無察覺,那帶來的後果將是巨大的。很顯然,99%正確率的分類器並不是我們想要的。出現 這種現象的原因主要是資料分佈不均衡,類別為 1 的資料太少,錯分了類別 1 但達到了很高的 正確率缺忽視了研究者本身最為關注的情況。
2、模型質量有很多評價方法,需要因地制宜。
第三、什麼樣的分類器是最好的?這裡的例子很好:
如果一個分類器能正確分對所有的例項,那麼各項指標都已經達到最優,但這樣的分類器 往往不存在。比如之前說的地震預測,既然不能百分百預測地震的發生,但實際情況中能容忍 一定程度的誤報。假設在 1000 次預測中,共有 5 次預測發生了地震,真實情況中有一次發生 了地震,其他 4 次則為誤報。正確率由原來的 999/1000=99.9 下降為 996/10000=99.6。召回率 由 0/1=0%上升為 1/1=100%。對此解釋為,雖然預測失誤了 4 次,但真的地震發生前,分類器 能預測對,沒有錯過,這樣的分類器實際意義更為重大,正是我們想要的。在這種情況下,在 一定正確率前提下,要求分類器的召回率儘量高
第四、深度學習和大資料之間的關係
大資料是相對一般資料集來說的,本質上還是資料集,大資料的價值是通過資料探勘來實現的。機器學習則是資料探勘過程中可能使用到的工具。