1. 程式人生 > >機器學習題目彙總二

機器學習題目彙總二

1、下列屬於無監督學習的是:
正確答案: A

A、k-means
B、SVM
C、最大熵
D、CRF

簡單來說,基於已知類別的樣本調整分類器的引數,使其達到所要求效能的過程,稱為監督學習;對沒有分類標記的訓練樣本進行學習,以發現訓練樣本集中的結構性知識的過程,成為非監督學習
其中,k-means為是最為經典的基於劃分的無監督學習聚類方法

2、在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題()
正確答案: D

A、增加訓練集量
B、減少神經網路隱藏層節點數
C、刪除稀疏的特徵 S
D、SVM演算法中使用高斯核/RBF核代替線性核

避免過擬合的方法:正則化方法,強制減少引數,增大訓練資料集。


對於B,過擬合是太多的引數引起的。神經網路減少隱藏層節點,就是在減少引數,只會將訓練誤差變高,不會導致過擬合。
對於D,svm高斯核函式比線性核函式模型更復雜,容易過擬合

徑向基(RBF)核函式/高斯核函式的說明
這個核函式可以將原始空間對映到無窮維空間。對於引數 ,如果選的很大,高次特徵上的權重實際上衰減得非常快,實際上(數值上近似一下)相當於一個低維的子空間;反過來,如果選得很小,則可以將任意的資料對映為線性可分——當然,這並不一定是好事,因為隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調整引數 ,高斯核實際上具有相當高的靈活性,也是 使用最廣泛的核函式 之一。

3、下面有關分類演算法的準確率,召回率,F1 值的描述,錯誤的是?


正確答案: C

A、準確率是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率
B、召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率,衡量的是檢索系統的查全率
C、正確率、召回率和 F 值取值都在0和1之間,數值越接近0,查準率或查全率就越高
D、為了解決準確率和召回率衝突問題,引入了F1分數

解析:
對於二類分類問題常用的評價指標是精準度(precision)召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試資料集上的預測或正確或不正確,4種情況出現的總數分別記作:

 TP——將正類預測為正類數
 FN——將正類預測為負類數
 FP——將負類預測為正類數
 TN——將負類預測為負類數

由此:

    精準率定義為:P = TP / (TP + FP)
    召回率定義為:R = TP / (TP + FN)
    F1值定義為: F1 = 2 P R / (P + R)

精準率和召回率和F1取值都在0和1之間,精準率和召回率高,F1值也會高,不存在數值越接近0越高的說法,應該是數值越接近1越高。

4、以下哪個是常見的時間序列演算法模型
正確答案: C

A、RSI
B、MACD
C、ARMA
D、KDJ

時間序列演算法模型是指採用某種演算法(可以是神經網路 、ARMA 等)模擬歷史資料,找出其中的變化規律。
迴歸滑動平均模型(ARMA 模型,Auto-Regressive and Moving Average Model)是研究時間序列的重要方法,由自迴歸模型(AR模型)與滑動平均模型(MA模型)為基礎混合構成。

5、在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那麼可用以下哪種方法直接進行引數估計()
正確答案: B

A、EM演算法
B、維特比演算法
C、前向後向演算法
D、極大似然估計

6、資料清理中,處理缺失值的方法是?
正確答案: A B C D

A、估算
B、整例刪除
C、變數刪除
D、成對刪除

資料清理中,處理缺失值的方法有兩種:
刪除法:
1)刪除觀察樣本
2)刪除變數:當某個變數缺失值較多且對研究目標影響不大時,可以將整個變數整體刪除
3)使用完整原始資料分析:當資料存在較多缺失而其原始資料完整時,可以使用原始資料替代現有資料進行分析
4)改變權重:當刪除缺失資料會改變資料結構時,通過對完整資料按照不同的權重進行加權,可以降低刪除缺失資料帶來的偏差
查補法:均值插補、迴歸插補、抽樣填補等
成對刪除與改變權重為一類
估算與查補法為一類

7、機器學習中L1正則化和L2正則化的區別是?
正確答案: A D

A、使用L1可以得到稀疏的權值
B、使用L1可以得到平滑的權值
C、使用L2可以得到稀疏的權值
D、使用L2可以得到平滑的權值

8、影響聚類演算法效果的主要原因有:( )?
正確答案: A B C

A、特徵選取
B、模式相似性測度
C、分類準則
D、已知類別的樣本質量

先分類後聚類,所以C是對的
D之所以不正確,是因為聚類是對無類別的資料進行聚類,不使用已經標記好的資料。

9、機器學習中做特徵選擇時,可能用到的方法有?
正確答案: A B C D

A、卡方
B、資訊增益
C、平均互資訊
D、期望交叉熵