1. 程式人生 > >機器學習習題(12)

機器學習習題(12)

最近才知道七月線上收錄了一些我的機器學習的題目及解析,我也去刷了一番,有時候看到我自己的答案解析,還是挺親切的。

但是有些不是我解析的題目翻遍了網路也沒有找到題目的答案,或者答案不太正確,只好自己來做一下解析了。

當然有些題目也是有爭議的,我只是給出參考答案和解析。

1.以下哪些方法不可以直接來對文字分類?
A. Kmeans
B. 決策樹
C. 支援向量機
D. KNN

參考答案: A

解析:分類不同於聚類。儘管這題選擇A,但是實際上描述是不嚴謹的。在學術上,我們把分類與聚類分開來。但是在工業界上,越來越多的需求是要求在無監督的情況下對文字進行分類,而分類的標籤則取決於需求,這點要做到很好是很難的。

2.假定某同學使用Naive Bayesian(NB)分類模型時,不小心將訓練資料的兩個維度搞重複了,那麼關於NB的說法中正確的是:
A.這個被重複的特徵在模型中的決定作用會被加強
B.模型效果相比無重複特徵的情況下精確度會降低
C.如果所有特徵都被重複一遍,得到的模型預測結果相對於不重複的情況下的模型預測結果一樣。
D.當兩列特徵高度相關時,無法用兩列特徵相同時所得到的結論來分析問題
E.NB可以用來做最小二乘迴歸
F.以上說法都不正確

參考答案:BD

解析:樸素貝葉斯的最大假設就是:各個因素相互獨立。事實上,並不是如此,這也是為什麼稱為樸素的原因。

A,看D就知道,如果兩個維度比較相似,那麼這兩個維度可能高度相關,那麼就需要轉到D。

B,當維度重複時,習得的聯合概率分佈有誤,所以精確度會降低。

C,多出一個維度的特徵,其訓練出的模型就會有所不同。這與把兩個維度的值重複的情況是不同的。

D,兩列特徵高度相關時(也就是有可能是因為重複了),那就無法用這種疑似重複的特徵來分析問題了。

E,最小二乘迴歸是用在判別式的機器學習方法中,比如SVM,logtic等。它是尋找幾何誤差最小的預測模型。而貝葉斯是生成式模型。

3.域介面方程法中,不能求線性不可分情況下分類問題近似或精確解的方法是?
A. 偽逆法-徑向基(RBF)神經網路的訓練演算法,就是解決線性不可分的情況
B. 基於二次準則的H-K演算法:最小均方差準則下求得權向量,二次準則解決非線性問題
C. 勢函式法-非線性
D. 感知器演算法-線性分類演算法

參考答案:D

解析:這道題很明顯是D,D是線性的,單層感知器甚至連異或都無法表示。

5.Fisher線性判別函式的求解過程是將M維特徵向量投影在()中求解。
A. M-1維空間
B. 一維空間
C. 二維空間
D. 三維空間

參考答案:B

解析:記得在之前的有道題目裡我對於Fisher線性判別準則有過介紹:更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠點出發的直線,使得同類樣本距離儘可能小,不同類樣本距離儘可能大,具體為最大化“廣義瑞利商”。

其實就是LDA,說起LDA那更簡單了,請移步《LDA與PCA》。

6.如果線性迴歸模型中的隨機誤差存在異方差性,那麼引數的OLS估計量是()
A. 無偏的,有效的
B. 無偏的,非有效的
C. 有偏的,有效的
D. 有偏的,非有效的

參考答案:B

解析:OLS即普通最小二乘法。由高斯—馬爾可夫定理,在給定經典線性迴歸的假定下,最小二乘估計量是具有最小方差的線性無偏估計量。根據證明過程可知,隨機誤差中存在異方差性不會影響其無偏性,而有效性證明中涉及同方差性,即異方差會影響引數 OLS估計量的有效性。

7.在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案哪個是相對不合理的()(假設precision=TP/( TP+ FP),recall=TP/( TP+ FN)。)
A. Accuracy:TP+TNall
B. F=2×recall×precisionrecall+precision
C. G-mean:precision×recall
D. AUC: ROC曲線下面積

參考答案:A

解析:對於分類器,主要的評價指標有 precision, recall,F-score,以及 ROC曲線等。在二分類問題中,我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時,比如樣本中負樣本數量遠遠多於正樣本,此時如果負樣本能夠全部正確分類,而正樣本只能部分正確分類,那麼( TP+ TN)可以得到很高的值,也就是Accuracy是個較大的值,但是正樣本並沒有取得良好的分類效果。當樣本不均衡時,建議採用BCD方法來評價。

  1. 影響聚類演算法結果的主要因素有()
    A. 特徵選取
    B. 已知類別的樣本質量
    C. 模式相似性測度
    D. 分類準則

參考答案:ACD

解析:
聚類的目標是使同一類物件的相似度儘可能地大;不同類物件之間的相似度儘可能地小。

聚類分析的演算法可以分為

  • 劃分法(Partitioning Methods)
  • 層次法(Hierarchical Methods)
  • 基於密度的方法(Density-Based Methods)
  • 基於網格的方法(Grid-Based Methods)
  • 基於模型的方法(Model-Based Methods)
  • 譜聚類(Spectral Clustering)等,

不同的方法對聚類效果存在差異(D正確);

特徵選取的差異會影響聚類效果(A正確)。

聚類的目標是使同一類物件的相似度儘可能地大,因此不同的相似度測度方法對聚類結果有著重要影響(C正確)。

由於聚類演算法是無監督方法,不存在帶類別標籤的樣本,因此,B選項不是聚類演算法的輸入資料。

  1. 模式識別中,不屬於馬氏距離較之於歐氏距離的優點是()
    A. 平移不變性
    B. 尺度不變性
    C. 考慮了模式的分佈

參考答案:A

解析:這裡是各種距離的特性的考察。
歐氏距離(Euclidean distance)也稱歐幾里得度量、歐幾里得度量,是一個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。在二維和三維空間中的歐氏距離的就是兩點之間的距離。

特性:
平移不變性
旋轉不變性

馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯提出的,表示資料的協方差距離。為兩個服從同一分佈並且其協方差矩陣為Σ的隨機變數與的差異程度:

如果協方差矩陣為單位矩陣,那麼馬氏距離就簡化為歐氏距離,

如果協方差矩陣為對角陣,則其也可稱為正規化的歐氏距離。

它是一種有效的計算兩個未知樣本集的相似度的方法。對於一個均值為μ,協方差矩陣為Σ的多變數向量,樣本與總體的馬氏距離為(dm)^2=(x-μ)’Σ^(-1)(x-μ)。

在絕大多數情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩定的,不穩定的來源是協方差矩陣,這也是馬氏距離與歐式距離的最大差異之處。

特性:
不考慮量綱影響(尺度不變性)
排除變數之間的相關性影響。(考慮了模式的分佈)

9.影響基本K-均值演算法的主要因素有()
A. 樣本輸入順序;
B. 模式相似性測度;
C. 聚類準則;
D. 初始類中心的選取

參考答案:BCD

解析:
K-均值演算法隱含地假設輸入資料的順序不影響結果。(A錯)

K-均值的三大要素:

  • 選定某種距離作為資料樣本間的相似性度量
  • 選擇評價聚類效能的準則函式
  • 相似度的計算根據一個簇中物件的平均值來進行。

所以B對、C對。

K-均值演算法通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法:
(1)Forgy方法隨機地從資料集中選擇 個觀測點作為初始的均值點;
(2)隨機劃分方法則隨機地為每一觀測指定所屬聚類,然後執行“更新(Update)”步驟,計算隨機分配的各聚類的圖心,作為初始的均值點。

特點:Forgy方法易於使得初始均值點散開,隨機劃分方法則把均值點都放到靠近資料集中心的地方。

適用性:隨機劃分方法一般更適用於K-調和均值和模糊K-均值演算法;Forgy方法更適用於期望-最大化(EM)演算法和標準K-均值演算法

因此D對。