【Machine Learning Done Wrong】機器學習七種易犯的錯誤

阿新 • • 發佈：2019-02-05

作者總結了機器學習七種易犯的錯誤：1.想當然用預設Loss；2.非線性情況下用線性模型；3.忘記Outlier；4.樣本少時用High Viriance模型；5.不做標準化就用L1/L2等正則；6.不考慮線性相關直接用線性模型；7.LR模型中用引數絕對值判斷feature重要性。

1. 機器學習本質上是在解一個優化問題，優化目標定義錯誤（或者 loss function 定義錯了），就全錯了！

2. 儘量通過特徵處理和變換，把非線性情況用線性模型求解：因為線性模型具有訓練演算法簡單可處理海量資料等特性；

3. 很多情況下，如果不把 Outlier 資料提前過濾，就要採用可處理 Outlier 的模型（或者在模型訓練過程中加入處理 Outlier 資料的演算法）；

5. 特徵標準化是很重要的預處理：多維度特徵組合在一起時，特徵具有同一尺度的可比性很重要；

6. 絕大多數情況下，“線性相關” 很少存在（比如廣告點選率和飄紅長度）但是：可以一個大的 "非線性相關問題" 轉化成 N 個小的 "線性相關問題"；

7. LR 訓練出來的特徵權重和特徵的重要性很相關，但並非完全代表特徵的重要性（有很多情況需要特定考慮）

【Machine Learning Done Wrong】機器學習七種易犯的錯誤

作者總結了機器學習七種易犯的錯誤：1.想當然用預設Loss；2.非線性情況下用線性模型；3.忘記Outlier；4.樣本少時用High Viriance模型；5.不做標準化就用L1/L2等正則；6.不考慮線性相關直接用線性模型；7.LR模型中用引數絕對值判斷feature

Machine Learning Done Wrong(機器學習七種易犯的錯誤)

作者總結了機器學習七種易犯的錯誤： 1.想當然用預設Loss； 2.非線性情況下用線性模型； 3.忘記Outlier； 4.樣本少時用High Viriance模型； 5.不做標準化就用L1/L2等正則； 6.不考慮線性相關直接用線性模型； 7.LR模型中用引數絕對值判斷f

【Machine Learning with Peppa】分享機器學習，數學，統計和程式設計乾貨

專欄達人授予成功建立個人部落格專欄

Optimization and Machine Learning（優化與機器學習）

compute war limit label right whether computer itself phy 這是根據（ShanghaiTech University）王浩老師的授課所作的整理。需要的預備知識：數分、高代、統計、優化 machine learning

【Mark Schmidt課件】機器學習與資料探勘——特徵選擇

本課件的主要內容如下：上次課程回顧：尋找“真實”模型資訊準則貝葉斯資訊準則關於食物過敏特徵選擇全基因組關聯分析 “迴歸權重”方法搜尋評分法評分函式的選擇 “特徵數量”懲罰

【Mark Schmidt課件】機器學習與資料探勘——非線性迴歸

本課件主要內容包括：魯棒迴歸體育運動中的非線性級數自適應計數/距離法線性模型的侷限性非線性特徵變換一般多項式特徵(d = 1) 英文原文課件下載地址： http://page5.dfpan

【Mark Schmidt課件】機器學習與資料探勘——數值優化與梯度下降

本課件主要包括以下內容：優化簡介上次課程回顧：線性迴歸大規模最小二乘尋找區域性最小值的梯度下降法二維梯度下降存在奇異點的最小二乘魯棒迴歸基於L1-範數的迴歸 L1-範數的平滑近似

【Mark Schmidt課件】機器學習與資料探勘——正規方程組

本課件的主要內容包括： d維資料的梯度和臨界點最小二乘偏導數矩陣代數回顧線性最小二乘線性和二次梯度正規方程組最小二乘問題的不正確解最小二乘解的非唯一性凸函式如何判斷函式的

【Mark Schmidt課件】機器學習與資料探勘——普通最小二乘

本課件主要內容包括：有監督學習：迴歸示例：依賴與解釋變數數字標籤的處理一維線性迴歸最小二乘目標微分函式最小化最小二乘解二維最小二乘 d維最小二乘偏微分

【Mark Schmidt課件】機器學習與資料探勘——進一步討論線性分類器

本課件主要內容包括：上次課程回顧：基於迴歸的分類方法 Hinge損失 Logistic損失 Logistic迴歸與SVMs “黑盒”分類器比較最大餘量分類器支援向量機魯棒性與凸近似非凸0-

【Mark Schmidt課件】機器學習與資料探勘——線性分類器

本課件主要內容包括：上次課程回顧：L1正則化組合特徵選擇線性模型與最小二乘梯度下降與誤差函式正則化辨識重要郵件基於迴歸的二元分類？一維判決邊界二維判決邊界感知器演算法

【Mark Schmidt課件】機器學習與資料探勘——多元分類

本課件主要內容：上次課程回顧：隨機梯度無限資料的隨機梯度詞性標註POS POS特徵多元線性分類題外話：多標籤分類多元SVMs 多元Logistic迴歸題外話：Frobenius範數

【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP

本課件的主要內容包括：上次課程回顧：多元線性分類器決策邊界形狀識別重要電子郵件 Sigmoid函式最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi

【Mark Schmidt課件】機器學習與資料探勘——主元分析PCA

本課件主要內容包括：上次課程回顧：MAP估計人類 vs. 機器感知隱因子模型向量量化向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式英文原文課件下載地址： h

【Mark Schmidt課件】機器學習與資料探勘——進一步討論PCA

本課件的主要內容包括：機器學習工程師需要精通的10種演算法上次課程回顧：隱因子模型上次課程回顧：主元分析上次課程回顧：PCA幾何描述題外話：資料凝聚 PCA計算：交替最小化 PCA計算：預測 PCA

【Mark Schmidt課件】機器學習與資料探勘——稀疏矩陣分解

本課件主要內容包括：上次課程回顧：基於正交/序貫基的PCA 人眼的顏色對立顏色對立表示法應用：人臉檢測特徵臉 VQ vs. PCA vs. NMF 面部表示非負最小二乘法稀疏性與非負最小

【Mark Schmidt課件】機器學習與資料探勘——推薦系統

本課件主要內容：上次課程回顧：隱因子模型魯棒PCA 隱因子模型的變化形式 Netflix獎協同過濾問題協同過濾的矩陣分解基於內容的濾波 vs. 協同濾波混合方法 SVD特徵的隨機梯度

AWS Machine Learning by Example AWS機器學習示例 Lynda課程中文字幕

AWS Machine Learning by Example 中文字幕 AWS機器學習示例中文字幕AWS Machine Learning by Example 藉助Amazon Web Services（AWS）深入瞭解機器學習在這個實踐課程中，講師Jonathan Fer

Introduction to Machine Learning with Python/Python機器學習基礎教程_程式碼修改與更新

2.3.1樣本資料集 --程式碼bug及修改意見 import matplotlib.pyplot as plt import mglearn X,y=mglearn.datasets.make_forge() mglearn.discrete_scatter(X[:,0

【Mark Schmidt課件】機器學習中的最優化問題

本課件的4個目的：監督學習的機器學習技術概述與動機。Give an overview and motivation for the machine learning techniqueof supervised learning. 概括了梯度法的收斂速

【Machine Learning Done Wrong】機器學習七種易犯的錯誤

相關推薦