1. 程式人生 > >一個月刷完機器學習筆試題300題

一個月刷完機器學習筆試題300題

第一天

1、以下哪種方法屬於判別式模型(discriminative model)( )
A 隱馬模型(HMM)
B 樸素貝葉斯
C LDA
D 支援向量機
正確答案是:D
已知輸入變數x,判別模型(discriminative model)通過求解條件概率分佈P(y|x)或者直接計算y的值來預測y。生成模型(generative model)通過對觀測值和標註資料計算聯合概率分佈P(x,y)來達到判定估算y的目的。
常見的判別模型有線性迴歸(Linear Regression),邏輯迴歸(Logistic Regression),支援向量機(SVM), 傳統神經網路(Traditional Neural Networks),線性判別分析(Linear Discriminative Analysis),條件隨機場(Conditional Random Field);常見的生成模型有樸素貝葉斯(Naive Bayes), 隱馬爾科夫模型(HMM),貝葉斯網路(Bayesian Networks)和隱含狄利克雷分佈(Latent Dirichlet Allocation)。
A選項的隱馬爾科夫模型和 B選項的樸素貝葉斯屬於生成模型。 C選項的LDA,如果是指Linear Discriminative Analysis,那麼屬於判別模型,如果是指 Latent Dirichlet Allocation,那麼屬於生成模型。 D選項的支援向量機屬於判別模型。
2、以P(w)表示詞條w的概率,假設已知P(南京)=0.8,P(市長)=0.6,P(江大橋)=0.4:P(南京市)=0.3,P(長江大橋)=0.5:如果假設前後兩個詞的出現是獨立的,那麼分詞結果就是( )
A 南京市長江

大橋
B 南京市長江大橋
C 南京市長江大橋
D 南京市
長江大橋
正確答案是: B
解析:
該題考察的是最大概率分詞,其基本思想是:一個待切分的漢字串可能包含多種分詞結果,將其中概率最大的作為該字串的分詞結果。若某候選詞在訓練語料中未出現,其概率為0。
A分詞結果的概率為P(A)=P(南京市)*P(長江)*P(大橋),由於“長江”未在語料中出現,所以P(長江)=0,從而P(A)=0;
同理可以算出B, C, D分詞結果的概率分別是:
P(B)=P(南京)P(市長)P(江大橋)=0.80.60.4=0.192;
P©=P(南京市長)P(江大橋)=00.4=0;
P(D)=P(南京市)P(長江大橋)=0.30.5=0.15。
因為P(B)最大,所以為正確的分詞結果。
3、基於統計的分詞方法為( )
A
正向量最大匹配法
B
逆向量最大匹配法
C
最少切分
D
條件隨機場
正確答案:D
中文分詞的基本方法可以分為基於語法規則的方法、基於詞典的方法和基於統計的方法。
基於語法規則的分詞法基本思想是在分詞的同時進行句法、語義分析, 利用句法資訊和語義資訊來進行詞性標註, 以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、複雜, 基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統應用較少。
在基於詞典的方法中,可以進一步分為最大匹配法,最大概率法,最短路徑法等。最大匹配法指的是按照一定順序選取字串中的若干個字當做一個詞,去詞典中查詢。根據掃描方式可細分為:正向最大匹配,反向最大匹配,雙向最大匹配,最小切分。最大概率法指的是一個待切分的漢字串可能包含多種分詞結果,將其中概率最大的那個作為該字串的分詞結果。最短路徑法指的是在詞圖上選擇一條詞數最少的路徑。
基於統計的分詞法的基本原理是根據字串在語料庫中出現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字同時出現的次數越多, 就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成為詞的可信度。常用的方法有HMM(隱馬爾科夫模型),MAXENT(最大熵模型),MEMM(最大熵隱馬爾科夫模型),CRF(條件隨機場)。
本題中,基於統計的方法為條件隨機場。ABC三個選項為基於詞典的方法。

4、下列哪個不屬於CRF模型對於HMM和MEMM模型的優勢( )
A
特徵靈活
B
速度快
C
可容納較多上下文資訊
D
全域性最優
正確答案是: B
HMM模型是對轉移概率和表現概率直接建模,統計共現概率。而MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分佈,而不是在給定當前狀態條件下,定義下一個狀態的狀態分佈。MEMM容易陷入區域性最優,是因為MEMM只在區域性做歸一化。CRF模型中,統計了全域性概率,在做歸一化時,考慮了資料在全域性的分佈,而不是僅僅在區域性歸一化,這樣就解決了MEMM中的標記偏置的問題。
CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文資訊,特徵設計靈活。CRF需要訓練的引數更多,與MEMM和HMM相比,它存在訓練代價大、複雜度高的缺點。
5、隱馬爾可夫模型(HMM),設其觀察值
空間為


狀態空間為
如果用維特比演算法(Viterbi algorithm)進行解碼,時間複雜度為( )
A
O(NK)
B
O(NK^2)
C
O(N^2K)
D
以上都不是
正確答案是:D

6、在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案哪個是相對不合理的( )(假設precision=TP/(TP+FP),recall=TP/(TP+FN)。)
A
Accuracy:(TP+TN)/all
B
F-value:2recallprecision/(recall+precision)
C
G-mean:sqrt(precision*recall)
D
AUC:ROC曲線下面積
正確答案是:A
對於分類器,主要的評價指標有precision,recall,F-score,以及ROC曲線等。
在二分類問題中,我們主要關注的是測試集的正樣本能否正確分類。當樣本不均衡時,比如樣本中負樣本數量遠遠多於正樣本,此時如果負樣本能夠全部正確分類,而正樣本只能部分正確分類,那麼(TP+TN)可以得到很高的值,也就是Accuracy是個較大的值,但是正樣本並沒有取得良好的分類效果。因此A選項是不合理的。在樣本不均衡時,可以採用BCD選項方法來評價。
7、下面關於ID3演算法中說法錯誤的是( )
A
ID3演算法要求特徵必須離散化
B
資訊增益可以用熵,而不是GINI係數來計算
C
選取資訊增益最大的特徵,作為樹的根節點
D
ID3演算法是一個二叉樹模型
正確答案是:D
D3演算法(IterativeDichotomiser3迭代二叉樹3代)是一個由RossQuinlan發明的用於決策樹的演算法。可以歸納為以下幾點:
使用所有沒有使用的屬性並計算與之相關的樣本熵值
選取其中熵值最小的屬性
生成包含該屬性的節點

D3演算法對資料的要求:
1)所有屬性必須為離散量;
2)所有的訓練例的所有屬性必須有一個明確的值;
3)相同的因素必須得到相同的結論且訓練例必須唯一。
8、如下表是使用者是否使用某產品的調查結果( )
請計算年齡、地區、學歷、收入中對使用者是否使用調查產品資訊增益最大的屬性。
()


A 年齡
B 地區
C 學歷
D 收入
正確答案是:C

9、在其它條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題( )
A
增加訓練集數量
B
減少神經網路隱藏層節點數
C
刪除稀疏的特徵
D
SVM演算法中使用高斯核/RBF核代替
正確答案是:D
機器學習中發生過擬合的主要原因有:
(1)使用過於複雜的模型;
(2)資料噪聲較大;
(3)訓練資料少。
由此對應的降低過擬合的方法有:
(1)簡化模型假設,或者使用懲罰項限制模型複雜度;
(2)進行資料清洗,減少噪聲;
(3)收集更多訓練資料。

本題中,A對應於增加訓練資料,B為簡化模型假設,C為資料清洗。D選項中,高斯核的使用增加了模型複雜度,容易引起過擬合。選擇合適的核函式以及軟邊緣引數C就是訓練SVM的重要因素。一般來講,核函式越複雜,模型越偏向於過擬合;C越大模型越偏向於過擬合,反之則擬合不足。
10、如果線性迴歸模型中的隨機誤差存在異方差性,那麼引數的OLS估計量是( )
A
無偏的,有效的
B
無偏的,非有效的
C
有偏的,有效的
D
有偏的,非有效的
正確答案是: B
OLS即普通最小二乘法。由高斯—馬爾可夫定理,在給定經典線性迴歸的假定下,最小二乘估計量是具有最小方差的線性無偏估計量。根據證明過程可知,隨機誤差中存在異方差性不會影響其無偏性,而有效性證明中涉及同方差性,即異方差會影響引數OLS估計量的有效性。