唯品會2018機器學習（A卷）

阿新 • • 發佈：2019-01-20

前言

想強調的是，機器學習中依然注重基本資料結構，演算法的知識。
個人答案，覺得有問題的歡迎交流~

一、（資料結構與演算法）列舉至少2種排序演算法（如快排），並寫出實現程式碼

這裡寫了冒泡和快速排序兩種。

冒泡很簡單

    //氣泡排序
    public void bubbleSort(int[] a)
    {
        int n = a.length;
        for (int i = 0; i < n; i++) {
            for (int j = 0; j < n-1; j++) {
                if 
 (a[j] > a[j + 1]) {
                    int t = a[j];
                    a[j] = a[j + 1];
                    a[j + 1] = t;
                }
            }
        }
    }

這裡需要注意的是，a[[j]和a[j+1]互換時，要考慮j+1的下標溢位，所以最終j只能小於n+1。

快速排序，快排真的是n多年的痛，寫了這麼多年，每次寫還是會出錯，哭一會。請注意看註釋部分。

    //一趟快速排序
    public 
 int PartSort(int i, int j ,int[] a)
    {
        int r = a[i];
        while (i < j) {
            while (a[j] >= r &&i<j)
                j--;
            //加了if 其實是 降低了效率的，這裡加if其實是為了i++這個語句
            //可做如下優化
            /*
             * 因為a[j]=r是，也會--，避免了if的判斷。
            if (i<j)
            {
                a[i]=a[j];
                i++;
            }
            */ 

            a[i]=a[j];
            System.out.println("hi:"+i+",j:"+j);
            //這裡不用判斷的原因是因為就算a[i]=r了，i也會++.
            while(a[i] <= r &&i<j)
                i++;
            /*
             * 優化同上
            if(i<j)
            {
                a[j]=a[i];
                j--;
            }
            */
            a[j]=a[i];
            System.out.println("li:"+i+",j:"+j);
        }
//      System.out.println("i:"+i+",j:"+j);
        a[i]=r;
        return i;
    }

    //快速排序主體
    public void quickSort(int i, int j ,int[] a)
    {
//      int n = a.length-1;
        if(i>=j)
            return;
        System.out.println("qi:"+i+",j:"+j);
        int r = PartSort(i,j,a);
        System.out.println("r:"+r);
        for(int k=0;k<a.length;k++)
            System.out.print(a[k]);
        System.out.println();
        quickSort(i,r-1,a);
        quickSort(r+1,j,a);
    }

二、（資料結構與演算法）現有N個數，找出其中第M大的數，這裡的N遠大於M。請說明演算法思路、複雜度

採用快速排序演算法思想，一次快速排序,返回值若為k，其實a[k]對應的位置是第k大的數，則若k>m, 則在左半部分繼續尋找第m大的數，否則在右半部分尋找第（m-k）大的數。
複雜度為O(N)。
程式碼如下：

    public int findMaxK(int i, int j, int[] a,int k)
    {
        System.out.println("findi:"+i+",j:"+j+"k:"+k);
        if(i>j)
            return -1000000; 
        int r = PartSort(i,j,a);
        System.out.println("findR:"+r);
        if (r<k)
            return findMaxK(r+1,j,a,k-r);
        else if (r>k)
            return findMaxK(i,r-1,a,k);
        else
            return a[r];
    }

三、（機器學習理論）請列舉生成模型與判別模型的區別

生成模型是通過資料學習聯合概率分佈P(x,y)，然後求出條件概率分佈P(Y|X)，作為預測的模型，即生成模型為：P(Y|X)=P(X,Y)/P(X)

生成模型的特點：生成模型可以還原聯合概率分佈，而判別模型不行；生成模型的收斂速度更快，即當樣本容量增大時，生成模型能更快的收斂到真實模型；當存在隱變數時，只能用生成模型。
常見的生成模型有樸素貝葉斯，隱馬爾科夫鏈。

判別模型是通過資料直接學習判別函式Y=f(X)或者條件概率作為預測模型。

判別模型的特點：判別模型直接學習的還是判別函式或者條件概率分佈，直接面對預測，往往學習的準確率要高；判別模型由於直接學習條件概率或決策函式，可以對資料進行各種程度上的抽象/定義特徵並使用特徵，因此可以簡化學習問題。
常見的判別模型有SVM，邏輯迴歸等。

四、（機器學習理論）請列舉分類模型和迴歸模型的區別

五、（機器學習理論）什麼是欠擬合、過擬合？避免過擬合有哪些途徑？

欠擬合：對訓練資料擬合不夠，偏差較大，根本的原因是特徵維度過少，導致擬合的函式無法滿足訓練集，訓練誤差較大。
過擬合：對訓練資料過度擬合，方差較大，根本的原因則是特徵維度過多，導致擬合的函式完美的經過訓練集，但是對新資料的預測結果則較差。

解決過擬合問題，則有3個途徑：

1.特徵選擇：減少特徵維度; 包括前向演算法，後向演算法以及Filter Method.
2.模型選擇：一般通過交叉驗證方法來避免過擬合。
3.正則化：裡面涉及到概率學派和貝葉斯學派的區別，但是其本質是類似與特徵選擇的，通過先驗概率，限制引數的取值，使得某些引數接近於0，則對應的特徵基本不起作用，起到降低模型複雜度的作用。

六、請列舉Random Forest和GBDT的區別

隨機森林：bagging演算法，對訓練資料進行抽樣，每次取不同的訓練資料進行決策樹的訓練，最終分類採用多數表決的方法。不同樹之間的訓練是並行的。
GBDT：boosting演算法，所有訓練資料都會一起放入模型中，而不會抽樣。通過調整樣本權重對模型進行修正得到下一個模型，即序列方法，得到最終輸出。在GBDT中，下一個模型擬合的不再是原始資料，而是梯度，以梯度去代替殘差值。

七、（機器學習理論）梯度下降法求解最優化問題的原理與步驟

假設目標函式為min L(x;a)
梯度下降的求解步驟就是不斷更新a，使得L下降，a的更新方法為：
a:=a-η*L對a的梯度。
其原理是，因為在數學中，一個函式變化最快的方向便是其梯度方向，因為是最小化問題，所以我們使得a降低。

更具體的可以參見部落格。

唯品會2018機器學習（A卷）

前言

一、（資料結構與演算法）列舉至少2種排序演算法（如快排），並寫出實現程式碼

二、（資料結構與演算法）現有N個數，找出其中第M大的數，這裡的N遠大於M。請說明演算法思路、複雜度

三、（機器學習理論）請列舉生成模型與判別模型的區別

四、（機器學習理論）請列舉分類模型和迴歸模型的區別

五、（機器學習理論）什麼是欠擬合、過擬合？避免過擬合有哪些途徑？

六、請列舉Random Forest和GBDT的區別

七、（機器學習理論）梯度下降法求解最優化問題的原理與步驟

唯品會2018機器學習（A卷）

機器學習（西瓜書）模型評估與選擇

機器學習（1-1）監督學習

機器學習（Machine Learning）大家與資源

吳恩達機器學習（十六）機器學習流水線、上限分析

吳恩達機器學習（第一章）

機器學習（十六）電商O2O優惠券使用預測-2

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

機器學習（十五）關聯分析之Apriori演算法

機器學習（十四）輕鬆理解模型評價指標

機器學習（十二）讓你輕鬆理解K-means 聚類演算法

機器學習（十一） SVM-支援向量機

機器學習（評估方法）

機器學習（線性代數）筆記

機器學習與深度學習系列連載：第一部分機器學習（十一）決策樹2（Decision Tree）

機器學習（建模過程）簡概

機器學習與深度學習系列連載：第一部分機器學習（十四）非監督度學習-1 Unsupervised Learning-1

機器學習與深度學習系列連載：第一部分機器學習（十五）非監督度學習-2 Unsupervised Learning-2（Neighbor Embedding）

機器學習與深度學習系列連載：第一部分機器學習（十七）非監督度學習-2 Unsupervised Learning-4（Generative Models）

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

唯品會2018機器學習（A卷）

前言

一、（資料結構與演算法）列舉至少2種排序演算法（如快排），並寫出實現程式碼

二、（資料結構與演算法）現有N個數，找出其中第M大的數，這裡的N遠大於M。請說明演算法思路、複雜度

三、（機器學習理論）請列舉生成模型與判別模型的區別

四、（機器學習理論）請列舉分類模型和迴歸模型的區別

五、（機器學習理論）什麼是欠擬合、過擬合？避免過擬合有哪些途徑？

六、請列舉Random Forest和GBDT的區別

七、（機器學習理論）梯度下降法求解最優化問題的原理與步驟

相關推薦