機器學習習題（12）

阿新 • • 發佈：2019-01-10

最近才知道七月線上收錄了一些我的機器學習的題目及解析，我也去刷了一番，有時候看到我自己的答案解析，還是挺親切的。

但是有些不是我解析的題目翻遍了網路也沒有找到題目的答案，或者答案不太正確，只好自己來做一下解析了。

當然有些題目也是有爭議的，我只是給出參考答案和解析。

1.以下哪些方法不可以直接來對文字分類？
A. Kmeans
B. 決策樹
C. 支援向量機
D. KNN

參考答案: A

解析：分類不同於聚類。儘管這題選擇A，但是實際上描述是不嚴謹的。在學術上，我們把分類與聚類分開來。但是在工業界上，越來越多的需求是要求在無監督的情況下對文字進行分類，而分類的標籤則取決於需求，這點要做到很好是很難的。

2.假定某同學使用Naive Bayesian（NB）分類模型時，不小心將訓練資料的兩個維度搞重複了，那麼關於NB的說法中正確的是：
A.這個被重複的特徵在模型中的決定作用會被加強
B.模型效果相比無重複特徵的情況下精確度會降低
C.如果所有特徵都被重複一遍，得到的模型預測結果相對於不重複的情況下的模型預測結果一樣。
D.當兩列特徵高度相關時，無法用兩列特徵相同時所得到的結論來分析問題
E.NB可以用來做最小二乘迴歸
F.以上說法都不正確

參考答案：BD

解析：樸素貝葉斯的最大假設就是：各個因素相互獨立。事實上，並不是如此，這也是為什麼稱為樸素的原因。

A，看D就知道，如果兩個維度比較相似，那麼這兩個維度可能高度相關，那麼就需要轉到D。

B，當維度重複時，習得的聯合概率分佈有誤，所以精確度會降低。

C，多出一個維度的特徵，其訓練出的模型就會有所不同。這與把兩個維度的值重複的情況是不同的。

D，兩列特徵高度相關時（也就是有可能是因為重複了），那就無法用這種疑似重複的特徵來分析問題了。

E，最小二乘迴歸是用在判別式的機器學習方法中，比如SVM,logtic等。它是尋找幾何誤差最小的預測模型。而貝葉斯是生成式模型。

3.域介面方程法中，不能求線性不可分情況下分類問題近似或精確解的方法是？
A. 偽逆法-徑向基（RBF）神經網路的訓練演算法，就是解決線性不可分的情況
B. 基於二次準則的H-K演算法：最小均方差準則下求得權向量，二次準則解決非線性問題
C. 勢函式法－非線性
D. 感知器演算法－線性分類演算法

參考答案：D

解析：這道題很明顯是D，D是線性的，單層感知器甚至連異或都無法表示。

5.Fisher線性判別函式的求解過程是將M維特徵向量投影在（）中求解。
A. M-1維空間
B. 一維空間
C. 二維空間
D. 三維空間

參考答案：B

解析：記得在之前的有道題目裡我對於Fisher線性判別準則有過介紹：更廣泛的稱呼是線性判別分析（LDA），將所有樣本投影到一條遠點出發的直線，使得同類樣本距離儘可能小，不同類樣本距離儘可能大，具體為最大化“廣義瑞利商”。

其實就是LDA，說起LDA那更簡單了，請移步《LDA與PCA》。

6.如果線性迴歸模型中的隨機誤差存在異方差性，那麼引數的OLS估計量是（）
A. 無偏的，有效的
B. 無偏的，非有效的
C. 有偏的，有效的
D. 有偏的，非有效的

參考答案：B

解析：OLS即普通最小二乘法。由高斯—馬爾可夫定理，在給定經典線性迴歸的假定下，最小二乘估計量是具有最小方差的線性無偏估計量。根據證明過程可知，隨機誤差中存在異方差性不會影響其無偏性，而有效性證明中涉及同方差性，即異方差會影響引數 OLS估計量的有效性。

7.在二分類問題中，當測試集的正例和負例數量不均衡時，以下評價方案哪個是相對不合理的（）（假設precision=TP/( TP+ FP),recall=TP/( TP+ FN)。）
A. Accuracy:TP+TNall
B. F=2×recall×precisionrecall+precision
C. G-mean:precision×recall−−−−−−−−−−−−−−√
D. AUC: ROC曲線下面積

參考答案：A

解析：對於分類器，主要的評價指標有 precision， recall，F-score，以及 ROC曲線等。在二分類問題中，我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時，比如樣本中負樣本數量遠遠多於正樣本，此時如果負樣本能夠全部正確分類，而正樣本只能部分正確分類，那麼( TP+ TN)可以得到很高的值，也就是Accuracy是個較大的值，但是正樣本並沒有取得良好的分類效果。當樣本不均衡時，建議採用BCD方法來評價。

影響聚類演算法結果的主要因素有()
A. 特徵選取
B. 已知類別的樣本質量
C. 模式相似性測度
D. 分類準則

參考答案：ACD

解析：
聚類的目標是使同一類物件的相似度儘可能地大；不同類物件之間的相似度儘可能地小。

聚類分析的演算法可以分為

劃分法（Partitioning Methods）
層次法（Hierarchical Methods）
基於密度的方法（Density-Based Methods）
基於網格的方法（Grid-Based Methods）
基於模型的方法（Model-Based Methods）
譜聚類（Spectral Clustering）等，

不同的方法對聚類效果存在差異（D正確）；

特徵選取的差異會影響聚類效果（A正確）。

聚類的目標是使同一類物件的相似度儘可能地大，因此不同的相似度測度方法對聚類結果有著重要影響（C正確）。

由於聚類演算法是無監督方法，不存在帶類別標籤的樣本，因此，B選項不是聚類演算法的輸入資料。

模式識別中，不屬於馬氏距離較之於歐氏距離的優點是（）
A. 平移不變性
B. 尺度不變性
C. 考慮了模式的分佈

參考答案：A

解析：這裡是各種距離的特性的考察。
歐氏距離（Euclidean distance）也稱歐幾里得度量、歐幾里得度量，是一個通常採用的距離定義，它是在m維空間中兩個點之間的真實距離。在二維和三維空間中的歐氏距離的就是兩點之間的距離。

特性：
平移不變性
旋轉不變性

馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯提出的，表示資料的協方差距離。為兩個服從同一分佈並且其協方差矩陣為Σ的隨機變數與的差異程度:

如果協方差矩陣為單位矩陣,那麼馬氏距離就簡化為歐氏距離,

如果協方差矩陣為對角陣,則其也可稱為正規化的歐氏距離。

它是一種有效的計算兩個未知樣本集的相似度的方法。對於一個均值為μ，協方差矩陣為Σ的多變數向量，樣本與總體的馬氏距離為(dm)^2=(x-μ)’Σ^(-1)(x-μ)。

在絕大多數情況下，馬氏距離是可以順利計算的，但是馬氏距離的計算是不穩定的，不穩定的來源是協方差矩陣，這也是馬氏距離與歐式距離的最大差異之處。

特性：
不考慮量綱影響（尺度不變性）
排除變數之間的相關性影響。（考慮了模式的分佈）

9.影響基本K-均值演算法的主要因素有(）
A. 樣本輸入順序；
B. 模式相似性測度；
C. 聚類準則；
D. 初始類中心的選取

參考答案：BCD

解析：
K-均值演算法隱含地假設輸入資料的順序不影響結果。（A錯）

K-均值的三大要素：

選定某種距離作為資料樣本間的相似性度量
選擇評價聚類效能的準則函式
相似度的計算根據一個簇中物件的平均值來進行。

所以B對、C對。

K-均值演算法通常使用的初始化方法有Forgy和隨機劃分(Random Partition)方法：
（1）Forgy方法隨機地從資料集中選擇個觀測點作為初始的均值點；
（2）隨機劃分方法則隨機地為每一觀測指定所屬聚類，然後執行“更新(Update)”步驟，計算隨機分配的各聚類的圖心，作為初始的均值點。

特點：Forgy方法易於使得初始均值點散開，隨機劃分方法則把均值點都放到靠近資料集中心的地方。

適用性：隨機劃分方法一般更適用於K-調和均值和模糊K-均值演算法；Forgy方法更適用於期望-最大化(EM)演算法和標準K-均值演算法

因此D對。

機器學習習題（12）

機器學習習題（12）

機器學習習題（18）

機器學習習題（1）

機器學習習題（5）

機器學習習題（15）

《機器學習》筆記-計算學習理論（12）

機器學習筆記（四）機器學習可行性分析

機器學習筆記（六）邏輯回歸

機器學習筆記（八）非線性變換

C#學習筆記（12）——三種方法操作XML

python機器學習實戰（三）

python機器學習實戰（四）

軟件架構設計學習總結（12）：大型網站技術架構（六）網站的伸縮性架構

python學習筆記（12）文件讀寫

機器學習實戰（一）—— 用線性回歸預測波士頓房價

機器學習理論（一）——線性回歸

Java Web學習總結（12）Filter過濾器

python學習——練習題（12）

Linux第一周學習筆記（12）

Linux第二周學習筆記（12）

機器學習習題（12）

相關推薦