1. 程式人生 > >Pipline(流水線)和主成分分析

Pipline(流水線)和主成分分析

Pipline(流水線),這個模型的理論基礎是聯結主義,從工程實現的角度來講,我們首先呼叫spectral embedding 對訓練資料做特徵提取,再呼叫K-means完成最後的模型預算,這是pipeline的實際理念。
一個piipeline有n個模型順序組成,其中前n-1個模型被稱為Transformer,主要作用是對資料進行特徵提取,最後一個模型被稱為Estimator,主要作用是在特徵的基礎上完成最後的模型預測。
從程式碼層面上講,前面n-1個Transformer必須實現fit和transform這兩個介面,最後一個Estimator則只實現fit這個介面。

主成分分析(Principal Components Analysis,PCA)
非監督式學習的主要模型--降維,也就是將高位空間裡的資料對映到低維空間。降維可以幫助我們更好的找出資料的主要特徵。
PCA這個模型的主要目的是找出資料中的主要成分,也就是資料變化幅度排名前幾位的維度。主成分分析的目的是儘可能的保留資料的差異。主成分分析是不斷畫直線,並向直線做投影的方法來對資料進行降為的,因此他對線性資料的降維很好,也就是降維過程中損失的資訊較小。