機器學習部分題目
題目1:談談缺失值的處理:
答: 缺失值是指粗糙數據中由於缺少信息而造成的數據的聚類、分組、刪失或截斷。它指的是現有數據集中某個或某些屬性的值是不完全的。缺失值的產生的原因多種多樣,主要分為機械原因和人為原因。
下面簡單討論缺失值的一般處理方法:總體上來講有刪除法和插補法
一、刪除法
(1)簡單刪除法:對有缺失值的條目直接刪除;
優點:簡單,對不完整的條目占樣本總體較小時效果很好;
缺點:在不完整樣本占樣本總體比重較大時,丟失大量信息,影響後續處理
(2)權重法:
二、插補法
(1)特殊值填充:將缺失值用特殊值來填充,比如-1
有點:簡單
缺點:可能導致嚴重數據偏離
(2)均值填充:如果是數值信息缺失,則用樣本總體(或同標簽樣本)在該屬性的均值來填充;如果是非數值信息缺失,則用頻率最高的值來填充
優點:簡單
缺點:不能反映缺失值的變異性;低估了資料變異
適用環境:低缺失率
(3)就近補齊(熱卡填充):對於有缺陷的對象,在完整數據中找一個與它最相似的對象,難點在於定義相似的標準。
優點:簡單
缺點:對於相似的標準有很大主觀性
(4)聚類填充:最為典型的代表是K最近距離鄰法(K-means clustering),先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。
(5)回歸:基於完整的數據集,建立回歸方程(模型)。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。
優點:方差估計較好
缺點:穩健性依賴於輔助變量;抽樣誤差不容易控制
適用環境:樣本間相關性強
(6)極大似然估計:在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麽通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。
優點:樣本信息利用充分,考慮了缺失值的不確定性
缺點:計算復雜
適用環境:高缺失率
(7)多重插補:多值插補的思想來源於貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。
優點:樣本信息利用充分,考慮了缺失值的不確定性
缺點:計算復雜
適用環境:高缺失率
題目二:決策樹連續值的處理:
關鍵在於連續值區間劃分,下面是兩種常用方法
C4.5:Information Gain (Ratio) based Threshold
CART:遍歷所有輸入變量j 和切分點s,根據最小化平方誤差準則選取;
題目三:關聯分析算法介紹至少兩種
1.apriori:數據挖掘中的用於挖掘頻繁項集和關聯規則的Apriori算法. 具體可參考博客https://www.cnblogs.com/llhthinker/p/6719779.html
2.fp-growth:常見的挖掘頻繁項集算法有兩類,一類是Apriori算法,另一類是FP-growth. 具體參考博客https://www.cnblogs.com/bigmonkey/p/7478698.html
3.cca(典型相關分析):我們知道,兩個隨機變量x、y之間的線性關系可以通過對這兩個變量的N組樣本對進行線性回歸求得。但是,如果要求兩組隨機變量x、y之間的線性關系,則可以用典型關聯分析(Canonical correlation analysis)來求解。
具體參考博客https://blog.csdn.net/u012990623/article/details/39274513
機器學習部分題目