【Machine Learning Done Wrong】機器學習七種易犯的錯誤
作者總結了機器學習七種易犯的錯誤:1.想當然用預設Loss;2.非線性情況下用線性模型;3.忘記Outlier;4.樣本少時用High Viriance模型;5.不做標準化就用L1/L2等正則;6.不考慮線性相關直接用線性模型;7.LR模型中用引數絕對值判斷feature重要性。
1. 機器學習本質上是在解一個優化問題,優化目標定義錯誤(或者 loss function 定義錯了),就全錯了!
2. 儘量通過特徵處理和變換,把非線性情況用線性模型求解:因為線性模型具有訓練演算法簡單可處理海量資料等特性;
3. 很多情況下,如果不把 Outlier 資料提前過濾,就要採用可處理 Outlier 的模型(或者在模型訓練過程中加入處理 Outlier 資料的演算法);
5. 特徵標準化是很重要的預處理:多維度特徵組合在一起時,特徵具有同一尺度的可比性很重要;
6. 絕大多數情況下,“線性相關” 很少存在(比如廣告點選率和飄紅長度)但是:可以一個大的 "非線性相關問題" 轉化成 N 個小的 "線性相關問題";
7. LR 訓練出來的特徵權重和特徵的重要性很相關,但並非完全代表特徵的重要性(有很多情況需要特定考慮)
相關推薦
【Machine Learning Done Wrong】機器學習七種易犯的錯誤
作者總結了機器學習七種易犯的錯誤:1.想當然用預設Loss;2.非線性情況下用線性模型;3.忘記Outlier;4.樣本少時用High Viriance模型;5.不做標準化就用L1/L2等正則;6.不考慮線性相關直接用線性模型;7.LR模型中用引數絕對值判斷feature
Machine Learning Done Wrong(機器學習七種易犯的錯誤)
作者總結了機器學習七種易犯的錯誤: 1.想當然用預設Loss; 2.非線性情況下用線性模型; 3.忘記Outlier; 4.樣本少時用High Viriance模型; 5.不做標準化就用L1/L2等正則; 6.不考慮線性相關直接用線性模型; 7.LR模型中用引數絕對值判斷f
【Machine Learning with Peppa】分享機器學習,數學,統計和程式設計乾貨
專欄達人 授予成功建立個人部落格專欄
Optimization and Machine Learning(優化與機器學習)
compute war limit label right whether computer itself phy 這是根據(ShanghaiTech University)王浩老師的授課所作的整理。 需要的預備知識:數分、高代、統計、優化 machine learning
【Mark Schmidt課件】機器學習與資料探勘——特徵選擇
本課件的主要內容如下: 上次課程回顧:尋找“真實”模型 資訊準則 貝葉斯資訊準則 關於食物過敏 特徵選擇 全基因組關聯分析 “迴歸權重”方法 搜尋評分法 評分函式的選擇 “特徵數量”懲罰
【Mark Schmidt課件】機器學習與資料探勘——非線性迴歸
本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan
【Mark Schmidt課件】機器學習與資料探勘——數值優化與梯度下降
本課件主要包括以下內容: 優化簡介 上次課程回顧:線性迴歸 大規模最小二乘 尋找區域性最小值的梯度下降法 二維梯度下降 存在奇異點的最小二乘 魯棒迴歸 基於L1-範數的迴歸 L1-範數的平滑近似
【Mark Schmidt課件】機器學習與資料探勘——正規方程組
本課件的主要內容包括: d維資料的梯度和臨界點 最小二乘偏導數 矩陣代數回顧 線性最小二乘 線性和二次梯度 正規方程組 最小二乘問題的不正確解 最小二乘解的非唯一性 凸函式 如何判斷函式的
【Mark Schmidt課件】機器學習與資料探勘——普通最小二乘
本課件主要內容包括: 有監督學習:迴歸 示例:依賴與解釋變數 數字標籤的處理 一維線性迴歸 最小二乘目標 微分函式最小化 最小二乘解 二維最小二乘 d維最小二乘 偏微分
【Mark Schmidt課件】機器學習與資料探勘——進一步討論線性分類器
本課件主要內容包括: 上次課程回顧:基於迴歸的分類方法 Hinge損失 Logistic損失 Logistic迴歸與SVMs “黑盒”分類器比較 最大餘量分類器 支援向量機 魯棒性與凸近似 非凸0-
【Mark Schmidt課件】機器學習與資料探勘——線性分類器
本課件主要內容包括: 上次課程回顧:L1正則化 組合特徵選擇 線性模型與最小二乘 梯度下降與誤差函式 正則化 辨識重要郵件 基於迴歸的二元分類? 一維判決邊界 二維判決邊界 感知器演算法
【Mark Schmidt課件】機器學習與資料探勘——多元分類
本課件主要內容: 上次課程回顧:隨機梯度 無限資料的隨機梯度 詞性標註POS POS特徵 多元線性分類 題外話:多標籤分類 多元SVMs 多元Logistic迴歸 題外話:Frobenius範數
【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP
本課件的主要內容包括: 上次課程回顧:多元線性分類器 決策邊界形狀 識別重要電子郵件 Sigmoid函式 最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi
【Mark Schmidt課件】機器學習與資料探勘——主元分析PCA
本課件主要內容包括: 上次課程回顧:MAP估計 人類 vs. 機器感知 隱因子模型 向量量化 向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式 英文原文課件下載地址: h
【Mark Schmidt課件】機器學習與資料探勘——進一步討論PCA
本課件的主要內容包括: 機器學習工程師需要精通的10種演算法 上次課程回顧:隱因子模型 上次課程回顧:主元分析 上次課程回顧:PCA幾何描述 題外話:資料凝聚 PCA計算:交替最小化 PCA計算:預測 PCA
【Mark Schmidt課件】機器學習與資料探勘——稀疏矩陣分解
本課件主要內容包括: 上次課程回顧:基於正交/序貫基的PCA 人眼的顏色對立 顏色對立表示法 應用:人臉檢測 特徵臉 VQ vs. PCA vs. NMF 面部表示 非負最小二乘法 稀疏性與非負最小
【Mark Schmidt課件】機器學習與資料探勘——推薦系統
本課件主要內容: 上次課程回顧:隱因子模型 魯棒PCA 隱因子模型的變化形式 Netflix獎 協同過濾問題 協同過濾的矩陣分解 基於內容的濾波 vs. 協同濾波 混合方法 SVD特徵的隨機梯度
AWS Machine Learning by Example AWS機器學習示例 Lynda課程中文字幕
AWS Machine Learning by Example 中文字幕 AWS機器學習示例 中文字幕AWS Machine Learning by Example 藉助Amazon Web Services(AWS)深入瞭解機器學習 在這個實踐課程中,講師Jonathan Fer
Introduction to Machine Learning with Python/Python機器學習基礎教程_程式碼修改與更新
2.3.1樣本資料集 --程式碼bug及修改意見 import matplotlib.pyplot as plt import mglearn X,y=mglearn.datasets.make_forge() mglearn.discrete_scatter(X[:,0
【Mark Schmidt課件】機器學習中的最優化問題
本課件的4個目的: 監督學習的機器學習技術概述與動機。Give an overview and motivation for the machine learning techniqueof supervised learning. 概括了梯度法的收斂速