1. 程式人生 > >牛客網 機器學習題目

牛客網 機器學習題目

SVM核函式:線性核函式、多項式核函式、徑向基核函式、高斯核函式、冪指數核函式、拉普拉斯核函式、ANOVA核函式、二次有理核函式、多元二次核函式、逆多元二次核函式以及Sigmoid核函式,傅立葉核,樣條核 參考SVM核函式

關於 logit 迴歸和 SVM 不正確的是(A)

A. Logit迴歸目標函式是最小化後驗概率
B. Logit迴歸可以用於預測事件發生概率的大小
C. SVM目標是結構風險最小化
D. SVM可以有效避免模型過擬合

解析:

A. Logit迴歸本質上是一種根據樣本對權值進行極大似然估計的方法,而後驗概率正比於先驗概率和似然函式的乘積。logit僅僅是最大化似然函式,並沒有最大化後驗概率,更談不上最小化後驗概率。A錯誤 B. Logit迴歸的輸出就是樣本屬於正類別的機率,可以計算出概率,正確 C. SVM的目標是找到使得訓練資料儘可能分開且分類間隔最大的超平面,應該屬於結構風險最小化,嚴格來說也是錯誤的。 D. SVM可以通過正則化係數控制模型的複雜度,避免過擬合。

在文字分類中,首先要對資料進行特徵提取,特徵提取中又分為特徵選擇和特徵抽取兩大類,在特徵選擇演算法中有

  1. DF(Document Frequency) 文件頻率
    DF:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性

  2. MI(Mutual Information) 互資訊法
    互資訊法用於衡量特徵詞與文件類別直接的資訊量。
    如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向”低頻”的特徵詞。
    相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。

  3. (Information Gain) 資訊增益法
    通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。

  4. CHI(Chi-square) 卡方檢驗法
    利用了統計學中的”假設檢驗”的基本思想:首先假設特徵詞與類別直接是不相關的
    如果利用CHI分佈計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。

  5. WLLR(Weighted Log Likelihood Ration)加權對數似然

  6. WFO(Weighted Frequency and Odds)加權頻率和可能性

  7. 期望交叉熵,以文字分類為例子,期望交叉熵用來度量一個詞對於整體的重要程度。

在ID3決策樹中,也使用資訊增益作為特徵選擇的方法,在C4.5決策樹中,使用資訊增益比作為特徵選擇的方法,在CART中,使用基尼指數作為特徵選擇的方法

統計模式分類問題中,當先驗概率未知時,可以使用(AD)

A. 最小最大損失準則
B. 最小誤判概率準則
C. 最小損失準則
D. N-P判決

A. 考慮p(wi)變化的條件下,是風險最小

B. 最小誤判概率準則, 就是判斷p(w1|x)和p(w2|x)哪個大,x為特徵向量,w1和w2為兩分類,根據貝葉斯公式,需要用到先驗知識

C. 最小損失準則,在B的基礎之上,還要求出p(w1|x)和p(w2|x)的期望損失,因為B需要先驗概率,所以C也需要先驗概率

D. N-P判決,即限定一類錯誤率條件下使另一類錯誤率為最小的兩類別決策,即在一類錯誤率固定的條件下,求另一類錯誤率的極小值的問題,直接計算p(x|w1)和p(x|w2)的比值,不需要用到貝葉斯公式_

在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題(D)

A. 增加訓練集量
B. 減少神經網路隱藏層節點數
C. 刪除稀疏的特徵   S
D. SVM演算法中使用高斯核/RBF核代替線性核

一般認為,增加隱層數可以降低網路誤差(也有文獻認為不一定能有效降低),提高精度,但也使網路複雜化,從而增加了網路的訓練時間和出現“過擬合”的傾向, svm高斯核函式比線性核函式模型更復雜,容易過擬合

隱馬爾可夫模型三個基本問題以及相應的演算法說法正確的是(ABC )

A. 評估—前向後向演算法
B. 解碼—維特比演算法
C. 學習—Baum-Welch演算法
D. 學習—前向後向演算法

前向、後向演算法解決的是一個評估問題,即給定一個模型,求某特定觀測序列的概率,用於評估該序列最匹配的模型。

Baum-Welch演算法解決的是一個模型訓練問題,即引數估計,是一種無監督的訓練方法,主要通過EM迭代實現;

維特比演算法解決的是給定 一個模型和某個特定的輸出序列,求最可能產生這個輸出的狀態序列。如通過海藻變化(輸出序列)來觀測天氣(狀態序列),是預測問題,通訊中的解碼問題

基於二次準則函式的H-K演算法較之於感知器演算法的優點是(BD)?

A. 計算量小
B. 可以判別問題是否線性可分
C. 其解完全適用於非線性可分的情況
D. 其解的適應性更好

HK演算法思想很樸實,就是在最小均方誤差準則下求得權向量.
他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權向量,對於非線性可分得情況,能夠判別出來,以退出迭代過程.

以下哪個是常見的時間序列演算法模型(C)

A. RSI
B. MACD
C. ARMA
D. KDJ

時間序列中常用預測技術  一個時間序列是一組對於某一變數連續時間點或連續時段上的觀測值。

1.  移動平均法 (MA)

1.1. 簡單移動平均法

設有一時間序列y1,y2,..., 則按資料點的順序逐點推移求出N個數的平均數,即可得到一次移動平均數.

 1.2 趨勢移動平均法  

當時間序列沒有明顯的趨勢變動時,使用一次移動平均就能夠準確地反映實際情況,直接用第t週期的一次移動平均數就可預測第1t+週期之值。

時間序列出現線性變動趨勢時,用一次移動平均數來預測就會出現滯後偏差。修正的方法是在一次移動平均的基礎上再做二次移動平均,利用移動平均滯後偏差的規律找出曲線的發展方向和發展趨勢,然後才建立直線趨勢的預測模型。故稱為趨勢移動平均法。

2.  自迴歸模型(AR)

AR模型是一種線性預測,即已知N個數據,可由模型推出第N點前面或後面的資料(設推出P點).

本質類似於插值,其目的都是為了增加有效資料,只是AR模型是由N點遞推,而插值是由兩點(或少數幾點)去推導多點,所以AR模型要比插值方法效果更好。

3. 自迴歸滑動平均模型(ARMA)

其建模思想可概括為:逐漸增加模型的階數,擬合較高階模型,直到再增加模型的階數而剩餘殘差方差不再顯著減小為止。

4. GARCH模型

迴歸模型。除去和普通迴歸模型相同的之處,GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測。

5. 指數平滑法

移動平均法的預測值實質上是以前觀測值的加權和,且對不同時期的資料給予相同的加權。這往往不符合實際情況。

指數平滑法則對移動平均法進行了改進和發展,其應用較為廣泛。

基本思想都是:預測值是以前觀測值的加權和,且對不同的資料給予不同的權,新資料給較大的權,舊資料給較小的權。

根據平滑次數不同,指數平滑法分為:一次指數平滑法、二次指數平滑法和三次指數平滑法等。

位勢函式法的積累勢函式K(x)的作用相當於Bayes判決中的(AD)

A. 後驗概率
B. 先驗概率
C. 類概率密度
D. 類概率密度與先驗概率的乘積

PRML 第六章SVM  第三段公式(6.1)下方 勢函式->核->svm

勢函式 http://www.cnblogs.com/huadongw/p/4106290.html

PRML  1.2.5

下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測(D)

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

AR模型是一種線性預測,即已知N個數據,可由模型推出第N點前面或後面的資料(設推出P點),所以其本質類似於插值。

MA模型(moving average model)滑動平均模型,模型參量法譜分析方法之一。

ARMA模型(auto regressive moving average model)自迴歸滑動平均模型,模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能,但其引數估算比較繁瑣。

GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展, GARCH對誤差的 方差進行了進一步的建模,特別適用於波動性的分析和 預測。

SPSS的介面中,以下是主視窗是(B )

A. 語法編輯視窗
B. 資料編輯視窗
C. 結果輸出視窗
D. 指令碼編輯視窗

百度的

SPSS(Statistical Product and Service Solutions),即“統計產品與服務解決方案”軟體。

SPSS為IBM公司推出的一系列用於統計學分析運算、資料探勘、預測分析和決策支援任務的軟體產品及相關服務的總稱,有Windows和Mac OS X等版本。

Spss 中,資料整理功能主要集中在 資料和轉換

下列方法中,可以用於特徵降維的方法包括(ABCD)

A. 主成分分析PCA
B. 線性判別分析LDA
C. 深度學習SparseAutoEncoder
D. 矩陣奇異值分解SVD
E. 最小二乘法LeastSquares

資料清理中,處理缺失值的方法是?

由於調查、編碼和錄入誤差,資料中可能存在一些無效值和缺失值,需要給予適當的處理。常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。

估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮資料中已有的資訊,誤差可能較大。另一種辦法就是根據調查物件對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查物件的家庭收入推算擁有這一產品的可能性。

整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的資料。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。

變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。

成對刪除(pairwise deletion)是用一個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留資料集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了資料集中的可用資訊。

採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當儘量避免出現無效值和缺失值,保證資料的完整性。

在(BD)情況下,用分支定界法做特徵選擇計算量相對較少?

A. 選用的可分性判據J具有可加性
B. 選用的可分性判據J對特徵數目單調不減
C. 樣本較多
D. 

該演算法的主要思路是:定義一個滿足單調性條件的評價準則函式,對兩個特徵子集S1和S2而言,如果S1是S2的子集, 那麼S1所對應的評價函式值必須要小於S2所對應的評價函式值,在定義了該評價函式的前提下,該演算法對最終特徵子集的選擇過程可以用一棵樹來描述,樹根是所有特徵的集合從樹根可分性判據值和事先定義的最佳特徵子集的特徵數目,搜尋滿足要求的特徵子集

但存在3個問題:

1於該演算法無法對所有的特徵依據其重要性進行排序!如何事先確定最優特徵子集中特徵的數目是一個很大的問題2合乎問題要求的滿足單調性的可分性判據難以設計3當處理高維度多分類問題時!演算法要執行多次!計算效率低下的問題將非常明顯

關於線性迴歸的描述,以下正確的有:(BCE)

A. 基本假設包括隨機干擾項是均值為0,方差為1的標準正態分佈
B. 基本假設包括隨機干擾項是均值為0的同方差正態分佈
C. 在違背基本假設時,普通最小二乘法估計量不再是最佳線性無偏估計量
D. 在違背基本假設時,模型不再可以估計
E. 可以用DW檢驗殘差是否存在序列相關性
F. 多重共線性會使得引數估計值方差減小

一元線性迴歸的基本假設有
1、隨機誤差項是一個期望值或平均值為0的隨機變數; 
2、對於解釋變數的所有觀測值,隨機誤差項有相同的方差; 
3、隨機誤差項彼此不相關;
4、解釋變數是確定性變數,不是隨機變數,與隨機誤差項彼此之間相互獨立;
5、解釋變數之間不存在精確的(完全的)線性關係,即解釋變數的樣本觀測值矩陣是滿秩矩陣;
6、隨機誤差項服從正態分佈

違背基本假設的計量經濟學模型還是可以估計的,只是不能使用普通最小二乘法進行估計。 
當存在異方差時,普通最小二乘法估計存在以下問題: 引數估計值雖然是無偏的,但不是最小方差線性無偏估計。

杜賓-瓦特森(DW)檢驗,計量經濟,統計分析中常用的一種檢驗序列一階 自相關 最常用的方法。 

所謂多重共線性(Multicollinearity)是指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。影響

(1)完全共線性下引數估計量不存在

(2)近似共線性下OLS估計量非有效

多重共線性使引數估計值的方差增大,1/(1-r2)為方差膨脹因子(Variance Inflation Factor, VIF)

(3)引數估計量經濟含義不合理

(4)變數的顯著性檢驗失去意義,可能將重要的解釋變數排除在模型之外

(5)模型的預測功能失效。變大的方差容易使區間預測的“區間”變大,使預測失去意義。

spss中交叉分析主要用來檢驗兩個變數之間是否存在關係,或者說是否獨立,其零假設為兩個變數之間沒有關係。在實際工作中,經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。

下面有關序列模式挖掘演算法的描述,錯誤的是?(C)

A. AprioriAll演算法和GSP演算法都屬於Apriori類演算法,都要產生大量的候選序列
B. FreeSpan演算法和PrefixSpan演算法不生成大量的候選序列以及不需要反覆掃描原資料庫
C. 在時空的執行效率上,FreeSpan比PrefixSpan更優
D. 和AprioriAll相比,GSP的執行效率比較高

1. Apriori演算法 :關聯分析原始演算法,用於從候選項集中發現頻繁項集。兩個步驟:進行自連線、進行剪枝。缺點:無時序先後性。

AprioriAll演算法:AprioriAll演算法與Apriori演算法的執行過程是一樣的,不同點在於候選集的產生,需要區分最後兩個元素的前後。

AprioriSome演算法:可以看做是AprioriAll演算法的改進

AprioriAll演算法和AprioriSome演算法的比較:

(1)AprioriAll用 去計算出所有的候選Ck,而AprioriSome會直接用 去計算所有的候選 ,因為 包含 ,所以AprioriSome會產生比較多的候選。

(2)雖然AprioriSome跳躍式計算候選,但因為它所產生的候選比較多,可能在回溯階段前就佔滿記憶體。

(3)如果記憶體佔滿了,AprioriSome就會被迫去計算最後一組的候選。

(4)對於較低的支援度,有較長的大序列,AprioriSome演算法要好些。

2. GPS演算法:類Apriori演算法。用於從候選項集中發現具有時序先後性的頻繁項集。兩個步驟:進行自連線、進行剪枝。缺點:每次計算支援度,都需要掃描全部資料集;對序列模式很長的情況,由於其對應的短的序列模式規模太大,演算法很難處理。

3. SPADE演算法:改進的GPS演算法,規避多次對資料集D進行全表掃描的問題。與GSP演算法大體相同,多了一個ID_LIST記錄,使得每一次的ID_LIST根據上一次的ID_LIST得到(從而得到支援度)。而ID_LIST的規模是隨著剪枝的不斷進行而縮小的。所以也就解決了GSP演算法多次掃描資料集D問題。

4.  FreeSpan演算法:即頻繁模式投影的序列模式挖掘。核心思想是分治演算法。基本思想為:利用頻繁項遞迴地將序列資料庫投影到更小的投影資料庫集中,在每個投影資料庫中生成子序列片斷。這一過程對資料和待檢驗的頻繁模式集進行了分割,並且將每一次檢驗限制在與其相符合的更小的投影資料庫中。

優點:減少產生候選序列所需的開銷。缺點:可能會產生許多投影資料庫,開銷很大,會產生很多的

5. PrefixSpan 演算法:從FreeSpan中推導演化而來的。收縮速度比FreeSpan還要更快些。

以下(ACD)屬於線性分類器最佳準則?

A. 感知準則函式
B. 貝葉斯分類
C. 支援向量機
D. Fisher準則

線性分類器有三大類:感知器準則函式、SVM、Fisher準則,而貝葉斯分類器不是線性分類器。

感知器準則函式:代價函式J=-(W*X+w0),分類的準則是最小化代價函式。感知器是神經網路(NN)的基礎,網上有很多介紹。

SVM:支援向量機也是很經典的演算法,優化目標是最大化間隔(margin),又稱最大間隔分類器,是一種典型的線性分類器。(使用核函式可解決非線性問題)

Fisher準則:更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠點出發的直線,使得同類樣本距離儘可能小,不同類樣本距離儘可能大,具體為最大化“廣義瑞利商”。

貝葉斯分類器:一種基於統計方法的分類器,要求先了解樣本的分佈特點(高斯、指數等),所以使用起來限制很多。在滿足一些特定條件下,其優化目標與線性分類器有相同結構(同方差高斯分佈等),其餘條件下不是線性分類。

參考:http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/

以下說法中正確的是(BD)

A. SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
B. 在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同
C. Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重
D. 給定n個數據點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少

1、SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒

SVM本身對噪聲具有一定的魯棒性,但實驗證明,是當噪聲率低於一定水平的噪聲對SVM沒有太大影響,但隨著噪聲率的不斷增加,分類器的識別率會降低。

2、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同

AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時,每個樣本對應的權重是相同的,即其中n為樣本個數,在此樣本分佈下訓練出一弱分類器。對於分類錯誤的樣本,加大其對應的權重;而對於分類正確的樣本,降低其權重,這樣分錯的樣本就被凸顯出來,從而得到一個新的樣本分佈。在新的樣本分佈下,再次對樣本進行訓練,得到弱分類器。以此類推,將所有的弱分類器重疊加起來,得到強分類器。

3、Boost和Bagging都是組合多個分類器投票的方法,二者均是根據單個分類器的正確率決定其權重。

Bagging與Boosting的區別:取樣方式不同。Bagging採用均勻取樣,而Boosting根據錯誤率取樣。Bagging的各個預測函式沒有權重,而Boosting是由權重的,Bagging的各個預測函式可以並行生成,而Boosing的哥哥預測函式只能順序生成。

以上答案參考http://www.cnblogs.com/Miranda-lym/p/5194922.html

Bagging中每個基分類器的權重都是相同的;

  • Adaboost與Bagging的區別:
  • 取樣方式:Adaboost是錯誤分類的樣本的權重較大實際是每個樣本都會使用;Bagging採用有放回的隨機取樣;
  • 基分類器的權重係數:Adaboost中錯誤率較低的分類器權重較大;Bagging中採用投票法,所以每個基分類器的權重係數都是一樣的。
  • Bias-variance權衡:Adaboost更加關注bias,即總分類器的擬合能力更好;Bagging更加關注variance,即總分類器對資料擾動的承受能力更強。

在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那麼可用以下哪種方法直接進行引數估計(D)

A. EM演算法
B. 維特比演算法
C. 前向後向演算法
D. 極大似然估計

EM演算法: 只有觀測序列,無狀態序列時來學習模型引數,即Baum-Welch演算法

維特比演算法: 用動態規劃解決HMM的預測問題,不是引數估計

前向後向:用來算概率

極大似然估計:即觀測序列和相應的狀態序列都存在時的監督學習演算法,用來估計引數

類域介面方程法中,不能求線性不可分情況下分類問題近似或精確解的方法是?(B)

A. 偽逆法
B. 感知器演算法
C. 基於二次準則的H-K演算法
D. 勢函式法

偽逆法:徑向基(RBF)神經網路的訓練演算法,徑向基解決的就是線性不可分的情況。

感知器演算法:線性分類模型。

H-K演算法:在最小均方誤差準則下求得權向量,二次準則解決非線性問題。

勢函式法:勢函式非線性。

以下關於PMF(概率質量函式),PDF(概率密度函式),CDF(累積分佈函式)描述錯誤的是(A)

A. PDF描述的是連續型隨機變數在特定取值區間的概率
B. CDF是PDF在特定區間上的積分
C. PMF描述的是離散型隨機變數在特定取值點的概率
D. 有一個分佈的CDF函式H(x),則H(a)等於P(X<=a)

概率質量函式 (probability mass function,PMF)是離散隨機變數在各特定取值上的概率。

概率密度函式(p robability density function,PDF )是對 連續隨機變數 定義的,本身不是概率,只有對連續隨機變數的取值進行積分後才是概率。

累積分佈函式(cumulative distribution function,CDF) 能完整描述一個實數隨機變數X的概率分佈,是概率密度函式的積分。對於所有實數x ,與pdf相對。

下列哪些方法可以用來對高維資料進行降維:(ABCDEF)

A. LASSO
B. 主成分分析法
C. 聚類分析
D. 小波分析法
E. 線性判別法
F. 拉普拉斯特徵對映

lasso通過引數縮減達到降維的目的;

pca就不用說了

線性鑑別法即LDA通過找到一個空間使得類內距離最小類間距離最大所以可以看做是降維;

小波分析有一些變換的操作降低其他干擾可以看做是降維

拉普拉斯請看這個http://f.dataguru.cn/thread-287243-1-1.html

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法是一種壓縮估計,它通過構造一個罰函式得到一個較為精煉的模型,使得它壓縮一些係數,同時設定一些係數為零。因此保留了子集收縮的優點,是一種處理具有復共線性資料的有偏估計。Lasso 的基本思想是在迴歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於 0 的迴歸係數,得到可以解釋的模型。lasso通過引數縮減達到降維的目的;