1. 程式人生 > >分類——資料的線性可分

分類——資料的線性可分

分類問題是當下最熱的機器學習的一種應用。分類問題主要有三個關鍵點,分別是資料、模型和評價。資料的好壞關係到模型的準確性,在實際應用中往往會發現,影響系統準確性的因素,往往不是使用了多少不同的分類模型,而是訓練資料。本文介紹資料的一個方面即資料的線性可分性。

學過函式的話,一定知道函式可以分為線性函式和非線性函式。在直角座標系中,對函式描點作圖為直線的話,就是線性函式;為曲線的話,就是非線性函式。

因為平面直角座標系是初中數學知識,所以就從這個維度說明資料的線性可分。假設現在有一堆訓練資料,它們是由兩類點組成的,其中一類點用三角符號畫在座標系中,另一類點用圓圈畫在座標系中。現在拿出直尺和筆在座標系中畫一條直線,如果可以把三角點分到直線的一邊,圓圈點分到直線的另一邊的話,就說這個訓練資料是線性可分的;否則,資料就是線性不可分的。

在文字分類中,我們用向量表示一篇文章或一句評論。向量在高中時都學過,但那時的向量是可以畫在平面座標系裡的,所以那是2維向量,就是一個點有橫座標分量和縱座標分量。但是在文字向量這裡,不能用2維,往往一個向量有幾百甚至幾千維,也就是說沒法畫出來。當你看了一些書中可以用點來表示文字的時候,那是使用了特徵降維的技術,把幾千個分量對映到2個分量。說到這裡,不得不說在應用支援向量機進行文字分類時,使用核函式與否,對於系統準確性來講,沒有太大區別。也就是說可以近似認為當前的文字向量表示的資料都是線性可分資料。

更嚴謹的數學表示為 這裡寫圖片描述