途牛2019校招筆試-大資料
【不定項選擇】
本套試卷共一個部分,共20題,每題5分,總分100分。每題至少有1個正確選項,多選、少選或錯選不得分。
1.預設知識點多選題一般5分 得分0分
MySQL 的binlog 日誌格式不包含哪個
A: A. Statement
B: B. row
C: C. mixed
D: D. mixedlevel
正確答案:C
2.預設知識點多選題一般5分 得分5分
下面對HBase的描述哪些是正確的?
A: A.不是開源的
B: B.是面向列的
C: C.是分散式的
D: D.是一種NoSQL資料庫
正確答案:B,C,D
3.預設知識點多選題一般5分 得分5分
解壓.tar.gz結尾的HBase壓縮包使用的Linux命令是
A: A.tar -zxvf
B: B.tar -cf
C: C. tar -s
D: D.tar -nf
正確答案:A
4.預設知識點多選題一般5分 得分5分
以下索引型別,哪個是MySQL資料庫的?
A: A.主鍵索引
B: B.全文索引
C: C.點陣圖索引
D: D.組合索引
正確答案:A,B,D
5.預設知識點多選題一般5分 得分0分
下列屬於ORACLE的物理儲存結構的是
A: A.資料檔案
B: B.日誌檔案
C: C.引數檔案
D: D.控制檔案
正確答案:A,B,D
6.預設知識點多選題一般5分 得分0分
在SELECT語句的WHERE子句的條件表示式中,可以匹配0個到多個字元的萬用字元是
A: A. *
B: B. %
C: C. _
D: D. ?
正確答案:B
7.預設知識點多選題一般5分 得分5分
Oracle資料庫分割槽有哪些?
A: A.範圍分割槽
B: B.列表分割槽
C: C.雜湊分割槽
D: D.組合分割槽
正確答案:A,B,C,D
8.預設知識點多選題一般5分 得分5分
資料庫事務有哪些特性?
A: A.原子性
B: B.一致性
C: C.分離性
D: D.永續性
正確答案:A,B,C,D
9.預設知識點多選題一般5分 得分5分
HDfS 中的 block 預設儲存幾份?
A: A.3 份
B: B.2 份
C: C.1 份
D: D.不確定
正確答案:A
10.預設知識點多選題一般5分 得分5分
下列屬於ORACLE的邏輯結構的是
A: A.區
B: B.遊標
C: C.段
D: D.表空間
正確答案:A,C,D
11.數理邏輯多選題一般5分 得分5分
畢業典禮後,某宿舍三位同學把自己的畢業帽扔了,隨後每個人隨機地拾起帽子,三個人中沒有人選到自己原來帶的帽子的概率是
A: A.1/2
B: B.1/3
C: C.1/4
D: D.1/6
正確答案:B
12.機器學習多選題一般5分 得分0分
下面對整合學習模型中的弱學習者描述正確的是?
A: A. 他們經常不會過擬合
B: B. 他們通常帶有高偏差,所以其並不能解決複雜學習問題
C: C. 他們通常會過擬合
D: D.他們通常帶有低偏差,能解決複雜學習問題
正確答案:A,B
13.機器學習多選題一般5分 得分5分
我們想要減少資料集中的特徵數, 即降維. 選擇以下適合的方案 :
A: A. 使用前向特徵選擇方法
B: B. 使用後向特徵排除方法
C: C. 我們先把所有特徵都使用, 去訓練一個模型, 得到測試集上的表現. 然後我們去掉一個特徵, 再去訓練, 用交叉驗證看看測試集上的表現. 如果表現比原來還要好, 我們可以去除這個特徵
D: D. 檢視相關性表, 去除相關性最高的一些特徵
正確答案:A,B,C,D
14.機器學習多選題一般5分 得分0分
下面關於L1範數和L2範數的說法正確的是
A: A. L1範數是對應引數向量絕對值之和
B: B. L2範數是對應引數向量的平方和,再求平方根
C: C. L2正規化是為了防止機器學習的過擬合,提升模型的泛化能力
正確答案:A,B,C
15.機器學習多選題一般5分 得分5分
對於隨機森林和GradientBoosting Trees, 下面說法正確的是:
A: A. 在隨機森林的單個樹中, 樹和樹之間是有依賴的, 而GradientBoosting Trees中的單個樹之間是沒有依賴的
B: B. 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹
C: C. 我們可以並行地生成GradientBoosting Trees單個樹, 因為它們之間是沒有依賴的, GradientBoosting Trees訓練模型的表現總是比隨機森林好
D: D. 以上都對
正確答案:B
16.機器學習多選題一般5分 得分5分
影響聚類演算法效果的主要原因有
A: 特徵選取
B: 模式相似性測度
C: 分類準則
D: 已知類別的樣本質量
正確答案:A,B,C
17.機器學習多選題一般5分 得分0分
以下哪些方法可以直接來對文字分類?
A: A. Kmeans
B: B. 決策樹
C: C. 支援向量機
D: D. KNN
正確答案:B,C,D
18.機器學習多選題容易5分 得分5分
在一個線性迴歸問題中,我們使用 R 平方(R-Squared)來判斷擬合度。此時,如果增加一個特徵,模型不變,則下面說法正確的是?
A: 如果 R-Squared 增加,則這個特徵有意義
B: 如果R-Squared 減小,則這個特徵沒有意義
C: 僅看 R-Squared 單一變數,無法確定這個特徵是否有意義。
D: 以上說法都不對
正確答案:C
19.預設知識點多選題較難5分 得分5分
一句sql包含以下關鍵詞,(1):select (2):from (3):where (4):group by (5):having (6):order by,請問執行順序是怎麼樣的?
A: A.(2)(3)(1)(4)(5)(6)
B: B.(2)(1)(3)(4)(5)(6)
C: C.(2)(3)(1)(5)(4)(6)
D: D.(2)(3)(4)(5)(1)(6)
正確答案:D
20.機器學習多選題較難5分 得分5分
以下說法正確的是
A: 判別模型對條件概率建模
B: 生成模型對聯合概率分佈建模
C: 由生成模型可以得到判別模型
D: 由判別模型可以得到生成模型
正確答案:A,B,C