1. 程式人生 > >【機器學習】周志華 第一章緒論含答案

【機器學習】周志華 第一章緒論含答案

知識點

分類:離散值
迴歸:連續值

監督學習:分類、迴歸
無監督學習:聚類

泛化能力(generalization):學得模型適用於新樣本的能力。

版本空間:與訓練集一致的“假設集合”。

歸納→歸納偏好(inductive bias),結合具體問題

NFL定理(No Free Lunch) 天下沒有免費的午餐,換言之,就是沒有演算法能完美地解決所有問題,尤其是對監督學習而言(例如預測建模)。舉例來說,你不能去說神經網路任何情況下都能比決策樹更有優勢,反之亦然。它們要受很多因素的影響,比如你的資料集的規模或結構。其結果是,在用給定的測試集來評估效能並挑選演算法時,你應當根據具體的問題來採用不同的演算法。

習題

(參考網上)
1-1
這裡寫圖片描述
箭頭好像畫反了,圖也不知道畫的對不對

只能理解前面,程式部分就不懂了。

1-3
(題目:若資料包含噪聲,則假設空間中有可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇。)
當資料包含噪聲的時候,通常是增加bias,提高模型的穩定性,常見的做法有正則化、blending、bagging等等。

通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。

1-4
通過看no free lunch的證明,我們可以知道當換做其他效能度量時,我們只需要證明這裡寫圖片描述為常數。

由於f(x)是均勻分佈,所以上面的的公式等於0.5 * 2^x * (l(h(x) = f(x)) + l(h(x) != f(x))),而l(h(x) = f(x)) + l(h(x) != f(x))為常數。

1-5
(題目:試述機器學習能在網際網路搜尋的哪些環節起什麼作用。)
1.最常見的,訊息推送,比如購物網站總推薦一些想剁手的東西。
2.網站相關度排行,通過點選量,網頁內容進行綜合分析。
3.圖片搜尋,現在大部分還是通過標籤來搜尋,但是一些購物網站已經可以根據圖片來推薦你想要的東西了。