Week6_Machine Learning System Design課後習題解答

阿新 • • 發佈：2019-01-17

    大家好，這篇文章主要和大家討論coursra網站上斯坦福大學機器學習第6周第二部分Machine Learning System Design的課後習題。我將給出習題的大致翻譯和本人的解題思路，其中可能存在錯誤，歡迎大家批評指正！

這裡寫圖片描述
題意：你用正則化邏輯迴歸構造一個垃圾郵件分類器，垃圾郵件y=1這類，非垃圾郵件為y=0這類。你已經訓練好了你的分類器，並且有1000個交叉驗證資料集。預測分類和實際分類的圖示如下。
請問這個分類器的recall（召回率）為多少？將答案填入下面框內，不少於兩位小數。
分析：

Tables	Actuall 1	Actuall 0
prediction 1	True possitive	False possitive
prediction 0	False Negative	True Negative

85對應的是True possitive,890對應的是False possitive,15對應的是False negative,10對應的是True negative.召回率對應第三個公式，帶入計算即可。
答案：recall = 85/（85+15）=0.85. 注意，不同學生計算的內容可能不同，看清計算recalll,accuracy,prediction,F1 score.

這裡寫圖片描述

題意：假設有大量的資料集可以用於訓練機器學習演算法。當下列選項中有的兩個為真時，利用大量的資料訓練有良好的效果。請問是哪兩個？
1.當我們想要利用高次多項式作為特徵，如x1^2,x1x2等
2.資料不是偏斜類
3.我們學習演算法可以相當複雜（比如利用很多引數訓練神經網路和其他一些演算法）
4.當給定特徵x時，專家可以確定的預測y。即x提供了足夠的特徵，我們特定方法可以準確的預測y。
分析：因為有大量的訓練資料，所以不會出現過擬合（或稱為高方差high variance）問題，所以我們要解決欠擬合（或成為高偏差high bias）問題。
答案：3,4

這裡寫圖片描述
題意:假設你訓練了一個邏輯迴歸分類器，他的輸出是h(x)。目前，當h（x）大於threshold,預測為1；當h(x)小於threshold,預測為0，目前的threshold定為0.5。假設你增加threshold到0.9，下面哪些是正確的？
1.分類器的查準率和召回率不變，因此F1 score不變
2.分類器有更高查準率
3.分類器有更高召回率
4.分類器查準率和召回率不變，但是準確率更高了
分析：threshold提升到0.9，即你在非常確定的情況下才把它歸為y=1，查準率自然提升了，召回率降低了。
答案：2

這裡寫圖片描述
題意：假設你在建立一個垃圾郵件分類器，垃圾郵件被歸為y=1類，非垃圾郵件被歸為y=0類。用於訓練的郵件99%是非垃圾郵件，1%是垃圾郵件。下面哪些陳述時正確的。
1.如果你總是預測輸入為垃圾郵件，分類器的recall為100%，prediction為1%
2.如果總預測輸入為非垃圾郵件，則正確率為99%
3.如果總預測輸入為非垃圾郵件，recall為0%
4.如果總是預測輸入為垃圾郵件，recall為0%，prediction=99%
分析：predicetion,recall,accurary,F1 score的計算公式在第一題中已經給出。假設總共有m封郵件。
1.總是預測輸入為垃圾郵件，則Ture possitive為1%m,false possitive 為99%m,false negative 為0,Ture negative為0。所以prediction=1%，recall=99%，選。
2.上面四個量分別為：0，0，1%m,99%m,正確率=99%，選。
3.上面四個量分別為：0，0，1%m，99%m,recall=0，選。
4.上面四個量分別為：1%m,99%m,0,0,recall = 100%,prediction=1%,不選。
答案：1,2，3

這裡寫圖片描述
題意：選出下列陳述所有正確的。
1.當訓練了一個邏輯迴歸分了，必須以0.5為分類器的臨界值。
2.用大量的資料讓模型不太容易產生過擬合問題。
3.在機器學習演算法建立之初就花大量時間蒐集大量資料是一個好方法。
4.對於偏斜類，正確率不是衡量模型好壞的好標準，應該用基於prediction和recall的F1 score衡量。
5.如果模型對訓練樣本欠擬合，新增更多的資料對模型有幫助。
分析：1.錯誤，可以根據實際情況修改theshold的值，不選
           2.正確，資料量大不容易產生過擬合，從learning curves曲線也可看出
           3.錯誤，模型建立之初需要儘快建立模型，分析資料確定改進方法。
           4.正確
           5.錯誤，增加訓練樣本數可以幫助解決overfitting，不是unfderfitting.
答案：2,4 這裡寫圖片描述

Week6_Machine Learning System Design課後習題解答

Week6_Machine Learning System Design課後習題解答

機器學習基石(Machine Learning Foundations) 機器學習基石作業四課後習題解答

Ng第十一課：機器學習系統的設計(Machine Learning System Design)

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

斯坦福大學公開課機器學習：machine learning system design | data for machine learning（數據量很大時，學習算法表現比較好的原理）

演算法導論（第三版）課後習題解答

網路作業系統第二章課後習題解答

網路作業系統第一章課後習題解答

網路作業系統第五章課後習題解答

網路作業系統第四章課後習題解答

作業系統第一章——概論（課後習題解答）

Coursera-吳恩達-機器學習-第六週-測驗-Machine Learning System Design

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Stanford機器學習筆記-7. Machine Learning System Design

周志華《機器學習》課後習題解答系列（三）：Ch2

周志華《機器學習》課後習題解答系列（一）：目錄

周志華《機器學習》課後習題解答系列（六）：Ch5.8

周志華《機器學習》課後習題解答系列（六）：Ch5.10

周志華《機器學習》課後習題解答系列（六）：Ch5.5

周志華《機器學習》課後習題解答系列（六）：Ch5.7

Week6_Machine Learning System Design課後習題解答

相關推薦