資料工程師－面試總結1

資料工程師－面試總結1:

面試流程總結:

1.筆試（5題選2題）
2.面試
    2.1 自我介紹
    2.2 關於筆試題目進行提問
    2.3 關於簡歷專案進行提問

筆試題目及答案（Python）:

1.給一列無序陣列，求出中位數並給出演算法的時間複雜度

def max_heapify(A,i,heap_size):
    l=i*2
    r=2*i+1
    if l<=heap_size and A[l]>A[i]:
        largest=l
    else:
        largest=i
    if 
 r<=heap_size and A[r]>A[largest]:
        largest=r
    if largest!=i:
        A[i],A[largest]=A[largest],A[i]
        max_heapify(A,largest,heap_size)

def build_max_heapify(A):
    heap_size=len(A)-1
    for i in range(heap_size,-1,-1):
        max_heapify(A,i,heap_size)

def heap_sort(A):
    N=len(A)-1 

    heap_size=N
    build_max_heapify(A)
    for i in range(N,0,-1):
        A[i],A[0]=A[0],A[i]
        heap_size-=1
        max_heapify(A,0,heap_size)
    return A

if __name__=='__main__':
    a=[2,3,4,5,7,9,0]
    b=heap_sort(a)
    median=b[len(b)/2]

2.strstr(str1,str2) 函式用於判斷字串str2是否是str1的子串。如果是，則該函式返回str2在str1中首次出現的地址；否則，返回NULL。

def strstr(str1,str2):
    len1=len(str1)
    len2=len(str2)
    if not str2:
        return 0
    if len1<len2:
        return None
    for i in range(len1-len2+1):
        k=0
        j=i
        while (str1[j]==str2[k] and k<len2):
            if j==len1-1 or k==len2-1:
                break
            k+=1
            j+=1
        if (k==len2-1) and str1[j]==str2[k]:
            return i

    return None

3.將數字n因式分解，求其所有素數（質數）因子。

from math import sqrt
def isPrime(num):
    if num == 1 or num==0:
        return False
    k = int(sqrt(num))
    for j in range(2, k+1):
        if num%j == 0:
            return False
    return True

def decompose(num):
    num_list=[]
    for i in range(2,num):
        if isPrime(i) and num % i ==0:
            num_list.append(i)

    return num_list

翻轉字串但不翻轉單詞

def reverseWords(s):
    s=list(s)
    def reverse(s, begin, end):
        for i in xrange((end - begin) / 2):
            s[begin + i], s[end - 1 - i] = s[end - 1 - i], s[begin + i]

    reverse(s, 0, len(s))
    i = 0
    for j in xrange(len(s) + 1):
        if j == len(s) or s[j] == ' ':
            reverse(s, i, j)
            i = j + 1
    str_reverse=''.join(s)
    return str_reverse

5.一棟樓有N階樓梯，兔子每次可以跳1、2或3階，問一共有多少種走法？

def allmethod(stairs):
    if isinstance(stairs,int) and stairs>0:
        basic_num={1:1,2:2,3:3}
        if stairs in basic_num.keys()
            return basic_num[stairs]
        else:
            return allmethod(stairs-1)+allmethod(stairs-2)+allmethod(stairs-3)
    else:
        return Flase

專案提問：

1.CNN 卷機的作用？
影象維度高，從而網路層級複雜，每層節點多，此時權重引數過多。CNN採用區域性關聯和共享權重，降低了引數的數量級，同時卷機操作可以從影象中提取特徵，同時保留畫素間的空間關係。
2. 1*1卷積核的作用是什麼？
主要作用：1.實現跨通道的互動和資訊整合。2.進行卷積核通道數的升維和降維。

3.不同的receptive field大小有什麼影響？
視窗越小，訓練效果越小，但是訓練越複雜。（LeNet 到AlexNet ,大卷積到小卷積）

4.不同影象大小如何進行相似度比較？
影象需要先resize 成同一個大小的圖片。

5.迴歸樹的生成。
在訓練資料所在的輸入空間中，遞迴地把每個區域劃分為兩個子區域並決定每個子區域上的輸出值，構建二叉決策樹。
1). 選擇最優切分變數j和切分點 s，求解：

$\min_{j,s}[\min_{c_{1}}\sum_{x_{i}\in R_{1}(j,s)}(y_{i}-c_{1})^2+\min_{c_{2}}\sum_{x_{i}\in R_{2}(j,s)}(y_{i}-c_{2})^2]$
遍歷所有變數j，對固定切分變數j掃描切分點s
2).用選定的(j,s)劃分區域並決定相應的輸出。
$R_{1}(j,s)=\{x|x^{j}\le s\},R_{2}(j,s)=\{x|x^{j}\ge s\}$
$c_{m} = \frac{1}{N_{m}}\sum_{x_{i}\in R_{m}(j,s)}y_{i}$
3). 繼續對兩個子區域呼叫1） 2）直到滿足停止條件。
4).將輸入空間化成M個子區域 $R_{1},R_{2},...R_{M}$ ，生成決策樹：
$f(x)=\sum_{m=1}^Mc_{m}I(x \in R_{m})$

6.資訊增益的公式。
資料集為D,|D|表示樣本個數，有K個類 $C_{k},k=1,2,3...K$ ， $|C_{k}|$ 為屬於類 $C_{k}$ 的樣本個數，則 $\sum_{k=1}^K|C_{k}|=|D|$ 。
設特徵A有n個不同的取值 $\{a_{1},a_{2},...a_{n}\}$ ，對應地將D劃分為 $D_{1},D_{2},...D_{n}$ ， $|D_{i}|$ 為 $D_{i}$ 的樣本個數，設子集 $D_{i}$ 中屬於 $C_{k}$ 的樣本的集合為 $D_{ik}$ ， $|D_{ik}|$ 為 $D_{ik}$ 的樣本個數。則：

$H(D)=-\sum_{k=1}^K\frac{|C_{k}|}{|D|}log\frac{|C_{k}|}{|D|}$
H(D|A)=−∑i=1n|Di||D|∑k=1K|Dik||

相關推薦

資料工程師－面試總結1

資料工程師－面試總結1: 面試流程總結: 1.筆試（5題選2題） 2.面試 2.1 自我介紹 2.2 關於筆試題目進行提問 2.3 關於簡歷專案進行提問筆試題目及答案（Python）: 1.給一列無序陣列，求出中位數並給出演算法的

業余草分享Java高級工程師，面試總結

多服務器疑問 EDA 線程安全只需要結構功能抓包 htm 面試之前覺得自己在原來公司相同工作經驗的同事當中，無論是業務能力還是技術能力都還可以，也對自己解決問題的能力有一定的自信，剛開始面試的時候，一度出現了尷尬，明明知道的東西，就是說不出來，也不知道從哪裏說，自

算法工程師筆/面試總結

andrew ng 面試總結 als ike and ans span boosting have 1. 有哪些生成式模型，有哪些判決式模型？判別式模型與生成式模型的區別產生式模型(Generative Model)與判別式模型(Discrimitive Model)是

180919面試總結(1)

1.內連線外連線區別內連線，也被稱為自然連線，只有兩個表相匹配的行才能在結果集中出現。返回的結果集選取了兩個表中所有相匹配的資料，捨棄了不匹配的資料。由於內連線是從結果表中刪除與其他連線表中沒有匹配的所有行，所以內連線可能會造成資訊的丟失。內連線語法如下： select field

一個三年Java工程師的面試總結

前言： 15年畢業到現在也近3年了，最近面試了阿里集團（菜鳥網路，螞蟻金服）、網易、滴滴、點我達，最終收到點我達和網易offer，螞蟻金服二面掛掉，菜鳥網路一個月了還在流程中...最終有幸去了網易。一、面試整體事項 1、簡歷要準備好，聯絡方式一

一個兩年Java工程師的面試總結

前言 16年畢業到現在也近兩年了，最近面試了阿里集團（菜鳥網路，螞蟻金服），網易，滴滴，點我達，最終收到點我達，網易offer，螞蟻金服二面掛掉，菜鳥網路一個月了還在流程中...最終有幸去了網易。但是要特別感謝點我達的領導及HR，真的非常非常好，很感謝他們一直的關照和指導。

阿里巴巴天貓事業部java大資料方向電話面試總結201805

內容簡介：阿里巴巴天貓事業部java大資料方向電話面試，總結交流的主要問題和自己的體驗，希望給自己和大家共勉。第一印象：面試老師是非常守時的人，約定八點面試，就是八點準時給你面試，如果有急事，也會八點準時通知，說現在有點事，半個小時後再面試，說八點半然後也是準時的八點半，很贊。主要交流的問題

百度大資料實習生電話面試總結

剛面完百度大資料實習生職位，還熱乎的，這樣我第一次面試獻給了百度，感覺面試官很nice，聽聲音年齡不到三十，問的問題好多都是探討講，這中間還會提示一些。進BAT任何一家實習一直是我特別嚮往的，下面為我以後更好發揮做個總結，同時也為準備去百度的小夥伴提供參考，希望我出現的問題

python面試總結1（web方向）

1，session和cookie的區別 session儲存在伺服器，cookie儲存在客戶端。 2,，解釋裝飾器和閉包，並分別說明各自應用場景。閉包：函式和執行環境的整體。裝飾器：在函式執行過程中動態增加功能。閉包應用：可以定義裝飾器。裝飾器應用：給函式新增日誌等

一個Python Web工程師的面試總結

今天給大家帶來一個Python web工程師的面試總結，也許對你正在學習Python的也有幫助。

一個兩年Java工程師的面試總結，以及進階架構師學習指引

前言 16年畢業到現在也近兩年了，最近面試了阿里集團（菜鳥網路，螞蟻金服），網易，滴滴，點我達，最終收到點我達，網易offer，螞蟻金服二面掛掉，菜鳥網路一個月了還在流程中...最終有幸去了網易。但是要特別感謝點我達的領導及HR，真的非常非常好，很感謝他們一直的關照和指導。面試整體事項

資料結構面試題總結1——陣列：求最大、次大值

一般大家一開始想到的辦法就是一次迴圈，記錄下最大值和最小值。或者就是用兩次冒泡，找到最大值和次大值。這兩種方法實踐複雜度差不多都是O(2n)，如果陣列很長，效率還是不夠高的。注意：直接排序，再選擇最大的兩個值，這並不是一個好辦法，因為我們只需要前兩個數有序，不需要後N-

大資料崗位的面試總結

本人住在有人間天堂之稱的城市，6年多開發經驗，最近2年主要在做大資料相關的開發，最近考慮換工作，基本也只考慮大資料相關崗位。目前新工作已經找好，但想分享一下最近面試的失敗一些經歷(成功的那些就不講了)，吐槽吐槽，跟廣大吃瓜群眾分享一下過程中的經歷心得，我的語文體育老師教

去哪兒測試工程師筆試面試總結

10月10號參加了去那兒的筆試，參加筆試的人非常多，有種參加聯考的感覺。筆試統一一套卷子，前三道是程式設計題，其中前兩道題是研發類必做題。後面的題目是針對不同的開發職位選做的。由於本人技術基礎不是特別紮實。只做了前兩道必做題和測試類題目。下面看題目： 1.把“welcom

.net 筆試面試總結(1)

tab .... 必須傳值繼承類重要 intern 查詢暫存趁著在放假時候，給大家總結一點筆試面試上的東西，也剛好為年後跳槽做一點小積累。下面的參考解答只是幫助大家理解，不用背，面試題、筆試題千變萬化，不要夢想著把題覆蓋了，下面的題是供大家查漏補缺用的，真正的

java工程師求職面試準備(1)

先把基礎整理一波：1.什麼是Java虛擬機器？為什麼Java被稱為是“平臺無關的程式語言”？2. JDK與JRE的區別是什麼？3.static關鍵字是什麼意思？Java中是否可以覆蓋(override)一個private或者是一個static的方法?4.是否可以在static

Spring面試總結1！

1 、BeanFactory和ApplicationContext區別 BeanFactory基本的工廠解析,管理,例項化所有容器內的bean的介面,spring中所有解析配置檔案的類都直接或者間接實現該介面 ApplicationContext介面imp

Python資料處理的一些總結-1

import pandas as pd import numpy as np #載入資料 train=pd.read_csv('Train.csv') test=pd.read_csv('Test.csv') #顯示一下資料的大小 #可以通過train.shape, t

java工程師第一次面試總結(偏向資料處理)

1、面試問題：1)、你在專案中遇到什麼問題？最後是怎麼解決的？學過框架和未學習框架之間的收穫是什麼？你是怎麼樣學習框架的？2)、你在三期的時候用了什麼框架處理後臺資料？你怎麼理解mybatis處理資料的方法？3)、在java中的設計模式熟悉哪些？4)、如何處理檔案上傳效率的

大資料工程師（ETL）面試系列（1）

1. 你覺得Spark和Hadoop的區別是什麼,請簡要說一說？我：Hadoop適合離線分析，是批處理；Spark適合實時分析，是近實時流，微批處理。 2. 你覺得Python和Java在使用