1. 程式人生 > >學習機誤差原因

學習機誤差原因

而且 比較 準確率 足夠 target 基本數據 成功 就會 https

本文為整合而成的學習筆記:

(1)https://blog.csdn.net/sinat_22594309/article/details/76040973?utm_source=copy

(2)https://blog.csdn.net/zaqwsxedcd/article/details/76522033

誤差原因與模型復雜度

誤差原因(Error):用於測量模型性能的基本指標

在模型預測中,模型可能出現的誤差來自兩個主要來源,即:因模型無法表示基本數據的復雜度而造成的偏差(bias,或者因模型對訓練它所用的有限數據過度敏感而造成的方差(variance

偏差:準確率和欠擬合

如果模型具有足夠的數據,但因不夠復雜而無法捕捉基本關系,則會出現偏差。這樣一來,模型一直會系統地錯誤表示數據,從而導致準確率降低。這種現象叫做欠擬合(underfitting)。

簡單來說,如果模型不適當,就會出現偏差。舉個例子:如果對象是按顏色和形狀分類的,但模型只能按顏色來區分對象和將對象分類(模型過度簡化),因而一直會錯誤地分類對象。

方差:精度和過擬合

在訓練模型時,通常使用來自較大訓練集的有限數量樣本。如果利用隨機選擇的數據子集反復訓練模型,可以預料它的預測結果會因提供給它的具體樣本而異。在這裏,方差(variance)用來測量預測結果對於任何給定的測試樣本會出現多大的變化。
出現方差是正常的,但方差過高表明模型無法將其預測結果泛化到更多的數據。對訓練集高度敏感也稱為過擬合(overfitting,而且通常出現在模型過於復雜或我們沒有足夠的數據支持它時。通常,可以利用更多數據進行訓練,以降低模型預測結果的方差並提高精度。如果沒有更多的數據可以用於訓練,還可以通過限制模型的復雜度來降低方差。

過擬合原因:

1、 噪聲。由於過分追求訓練集的正確率,導致訓練集中的一些噪聲或例外也被擬合在我們的模型之中,這樣分類器在實際使用時出現較高的錯誤率就是不可避免的了。

2、 缺乏代表性的樣本。這種情況通常出現在數據集比較小的情況,由於訓練數據不夠或者很不平衡,導致對於某些種類缺乏代表性樣本,模型實際拿來預測的時候效果不好也就是意料之中的事兒了。

3、 多重比較過程。首先解釋一下多重比較過程,假如預測某一件事成功的概率為0.1,對於某個個體來說,確實成功的概率不高,但假如讓50個人同時來預測這件事,假設他們是獨立的,那麽50個人中有人成功的概率會很高。這在決策樹構建的過程中也是這樣,我們往往會設定一個閾值,然後用增益是否大於這個閾值來決定是否要拓展決策樹,然而數據的屬性是很多的,我們在選擇的時候其實就相當於是一個多重比較的過程,這樣找到一個劃分節點的幾率就會大大增加,但其實這樣是有欺騙性的。

---------------------------

入門筆記,如有偏誤,請指正!

學習機誤差原因