筆經-騰訊2018暑期實習生-資料分析崗筆試經歷
發現今年雖然很多公司有了資料分析崗位面向本科生開放,但幾乎資料分析師的實習筆試幾乎都沒有考程式設計,注意是幾乎都沒有考!這也給了我們一些啟發,也說明現在的資料分析崗位職能方向更細化。
不定項選擇(每題4分共25題)
1.同事小鵝在訓練深度學習模型是發現訓練集誤差不斷減小,測試集誤差不斷增大,以下解決方法錯誤的是:
(過擬合怎麼處理)
資料增強
增加網路深度
提前停止訓練
新增dropout
2.以下幾種優化方法中,那種對超引數最不敏感?
SGD(stochastic gradient descent) BGD(batch gradient descent) Adadelta Momentum
3.解微積分,求導,求極限
4.《絕地求生》休息中,共有1-3個等級的頭盔,1-3個等級的防彈衣,結社你從無頭盔,無房但已開始,每次之間悽美有的裝備,裝備換成高等級的對應裝備,那麼到達3級頭盔,3級防彈衣,總共有多少種方法,
<比如用(x,y)表示當前(頭盔,防彈衣)的級別,0無對應裝備,則(0,0)->(1,0)->(1,3)-(3,3)為一種方法>
6、20、64、106
5.克萊姆法則是線性代數中一個關於求解線性方程組的定理。對一億個具有N個方程,N個未知數的方程組,下列說法正確的是:
當方程組的係數行列式不等於零時,則方程組一定有解; 如果方程組有兩個不同的解,那麼方程組的係數行列式必定等於零. 如果方程組的係數行列式等於零,那麼方程組一定無解 當方插入哪個組的係數行列式不等於零是,則方程組可能有多組解.
6.快排的最佳情況時間複雜度
7.鞍點上的Hessian矩陣的描述哪個是正確的(不是正定,也不是負定,也不是半正定,而是零)
正定矩陣
負定矩陣
半正定矩陣
都不對
8.樣本總體在區間[-1,1]上服從均勻分佈,一直樣本X1,X2,…,Xn的樣本均值E(X)和樣本方差D(X),則D(X)=
0、1/3、1/3n、3
9.設隨機變數滿足:E(X)=μ,D(X)=σ²,則由切比雪夫不等式,由{|X-μ|>=4σ}<=__
1/4、1/2、1/16、1/8
10.分層抽樣方法,在下面哪種情況下是比較合適的選擇()
研究的總體非常小 在調研中希望瞭解不同子群體的差異 總體中只有一部分樣本是可以調研的 沒有先驗的總體資訊
11.對n個樣本點進行無結局的的線性迴歸擬合,使得殘差平方和最小,迴歸方程為y=kx,則可推匯出的迴歸係數k為?
12.以下影象位深度神經網路啟用函式的函式影象,最有可能發生梯度消失的是(sigmoid函式):
13.氣泡排序對{5 7 0 9 2 3 1 4}進行從小到大排序,一共需要交換多少次
14.下圖深度使用深度優先遍歷的結果是
15.給定一組資料,以下哪種方法可以檢驗資料是否服從正態分佈?
Q-Q圖、wilcoxon符號秩檢驗、K-S檢驗、t檢驗
16.一生產線生產的產品成箱包裝,假設每項平均重50kg,標準差為3kg,若用最大載重量為5000kg的汽車來承運,試用中心極限定理計算每輛車裝多少箱,才能保證汽車不超載的概率大於0.84,(設φ(1)=0.84,其中φ(x)是正標準正態分佈N(0,1)的分佈函式)
17.下列關於協方差相關係數的說法,正確的是?(假定X,Y是兩個變數)
協方差的正或負,反應兩個變數X,Y是同向變化或反相變化
協方差的正或負,反應兩個變數X,Y同向或反相變化的程度
兩個變數的相關係數是消除量綱和標準化之後的特殊的協方差
相關係數反映兩個變數每單位變化的相似程度
18.給一個數組,需要快速查詢指定的一個整數是否在其中需要哪些操作
二分查詢
排序
排序、二分查詢
順序遍歷
19.在無線網路中分別以概率0.6和概率0.4,發出訊號”0”和”1”,由於通訊系統受到干擾,當傳送”0”時,接收方一概率0.8接收到”0”,概率0.2接收到”1”,當傳送”1”時,接收方以概率0.9收到”1”,概率0.1收到”0”,則以下說法正確的是
(1)收到訊號”0”的概率是0.52
(2)收到訊號”0”時,發出訊號也是”0”的概率是12/13
20.關於秩統計量,下列方法正確的是
需要總體分佈符合特定分佈
需要總體引數滿足一定條件
不需要總體分佈符合特定分佈
檢驗統計量與總體發分佈的具體引數無關
21.大數定律,和切比雪夫不等式相關
22.迴歸係數的運算
23、貝葉斯公式
24.高數中求導,解微積分,解方程相關的題目
25、線性代數裡的秩、克萊姆法則
25、推導迴歸係數的過程
- 3個問答題
1.討論機器學習模型中的偏差(Bias)和方差(Variance),並說明各種情況下的解決方法
部分作答
2.簡述數理統計中假設檢驗的基本步驟
部分作答 ,已經結束,部分被遮蓋了
3、如果微信有一個功能是使用者的位置資訊能夠每隔1分鐘上傳一次資料庫,那麼怎麼發揮它的作用?
扯了很多
個人感覺總共關注一下幾個點
- 線性代數
- 統計學基礎
- 概率論與數理統計
- 運籌
* 簡單幾個查詢和排序演算法(快排,冒泡)和簡單資料結構(圖)
* 沒有程式設計題
* 機器學習/深度學習/神經網路基礎演算法和相關應用基礎
* 一部分業務常識,資料敏感度
可以看出鵝廠對整體素質,要求還是很全面的,意料之外的就是幾乎沒有程式設計題
對自己來說還算比較有價值,對目前個人情況和行業情況多了些具體的認識。筆試應該是掛了,線代,數理統計,概率論的東西一兩年不碰了,比較懵,考試的時候草稿也不方便打太久,估計涼涼,但希望能給想找資料分析的同學們提供一點幫助和方向。