解決機器學習問題的步驟
隨著致力於應用機器學習問題,你會摸索出一個快速獲取具有棒棒噠魯棒性結果的模式或步驟,你可以在下一個專案中重用這個步驟,該步驟越強健,你得到可靠結果的速度就越快。
應用機器學習的步驟
5步法:
1.定義問題
2.準備資料
3.抽查演算法
4.改善結果
5.展示結果
以上步驟具有靈活性。例如“準備資料”步驟可以被分解為分析資料(總結和繪圖)和準備資料(準備實驗樣本)。“抽查演算法”步驟可能涉及多個正式的實驗。
這是個大的生產線,自動化使你可以回溯一些步驟(從改善結果回到準備資料),並且插入新的變換資料集,然後重新執行中間的實驗觀察結果並與前面實行的實驗進行對比。
1.定義問題
step1:問題是什麼?
step2:該問題為什麼需要被解決?列出你解決問題的動機,解決方案提供的益處和解決方案將會被如何使用
step3:該如何解決它?手動地描述問題將被如何解決以明確領域知識。
2.準備資料
在資料準備之始,有一個數據分析階段,它涉及:總結屬性和使用散點圖直方圖視覺化資料。詳細描述每個屬性和屬性間的關係也是極好的。通過分析會促使我思考資料上下文環境。
3步法化的資料準備步驟:
Step1:資料選擇:考慮什麼資料是可用的,哪些資料是有缺失的,哪些資料可以被移除。
Step2:資料處理:通過格式化組織你選擇的資料,清洗並從中取樣
Step3:資料變換:通過工程學特徵(尺度縮放、屬性分解和屬性聚合)變換預處理資料為機器學習做準備。
3.抽查演算法
在我的測試工具裡預設使用10折交叉驗證。所有試驗(演算法和資料集組合)被重複10次,準確性的平均值和標準差被收集和報告,盒圖對總結結果準確性(對應於每個演算法和資料集對)的分佈也很有用。
抽查演算法是指在測試工具里加載一批標準機器學習演算法並執行正式實驗。
抽查的目的是明確演算法和資料集的型別組合是否善於發現問題的結構,這樣他們可以通過重點實驗被更詳細的研究。
對具有良好效能的演算法執行更有針對性的實驗,下一步就可以進行演算法調優。
測試工具是指演算法的評估方法
4.改善結果
是時候從現有配置中擠出最棒結果了。在效能最好的演算法的引數上執行自動化靈敏度分析。
結果的統計顯著性再次變得重要。很容易集中注意力到方法和演算法配置。
總之,改善結果的步驟涉及:
演算法調優:探索最好的模型就是模型引數空間的搜尋問題
方法整合:預測由多個組合模型結合獲得
極端特徵:屬性分解和聚合被推向極致
5.展示結果
複雜的結果是沒有意義的,除非它有用。
用於展示結果 的模板如下:
背景(為什麼):定義問題存在的環境並設定研究問題的動機
問題(提問):扼要描述問題,提問並回答。
解決方案(回答):扼要描述方案,比上一步要詳細
調查:發現你的列表讓觀眾感興趣的點,他們可能會發現資料、方法是否有用,模型可能提供的效能益處
限制:考慮模型的適用性在哪,哪些問題不能解決。如果指出模型不擅長的地方,則模型擅長的地方就會更令人信服
結論:(Why+Question+Answer):回顧為什麼,研究問題和回答,濃縮成緊緻的發現會更容易記住和被他人複述。
總結
本節學習了處理機器學習問題的通用模板。該步驟跨平臺(Weka,R和scikit-learn等)
相關推薦
解決機器學習問題的步驟
隨著致力於應用機器學習問題,你會摸索出一個快速獲取具有棒棒噠魯棒性結果的模式或步驟,你可以在下一個專案中重用這個步驟,該步驟越強健,你得到可靠結果的速度就越快。 應用機器學習的步驟 5步法: 1.定義問題 2.準備資料 3.抽查演算法 4.改善結果 5.展示結果 以上步驟具
機器學習之路--解決機器學習問題有通法
一箇中等水平的資料科學家每天都要處理大量的資料。一些人說超過60%到70%的時間都用於資料清理、資料處理及格式轉化,以便於在之後應用機器學習模型。 這篇文章的重點便在後者—— 應用機器學習模型(包括預處理的階段)。此文討論到的內容來源於我參加的過的數百次的機器學習競賽。請大家注意這裡討論的方
MLOps+DevOps,解決機器學習在應用效能生產運維中的困境
比起建立機器學習模型來說,模型部署需要更先進的IT技能。如果大資料專家和開發者們沒能跟上節奏,未來堪憂。 在開發機器學習AI演算法和投入生產時,企業面臨更高挑戰。機器學習開發的過程是實驗性和探索性的過程,而部署則需要安全且易於管理的一致結果。 開發階段的目標是優
如何解決機器學習深度學習訓練集樣本不均衡的問題!
解決樣本不均衡的問題很多,主流的幾個如下: 1.樣本的過取樣和欠取樣。 2..使用多個分類器進行分類。 3.將二分類問題轉換成其他問題。 4.改變正負類別樣本在模型中的權重。 一、樣本的過取樣和欠取樣。 1.過取樣:將稀有類別的樣本進行復制,通過增加此稀有
如何解決機器學習中資料不平衡問題
這幾年來,機器學習和資料探勘非常火熱,它們逐漸為世界帶來實際價值。與此同時,越來越多的機器學習演算法從學術界走向工業界,而在這個過程中會有很多困難。資料不平衡問題雖然不是最難的,但絕對是最重要的問題之一。 一、資料不平衡 在學術研究與教學中,很多演算法都有一個基本假設,那
如何解決機器學習樹整合模型的解釋性問題
01 機器學習模型不可解釋的原因 前些天在同行交流群裡,有個話題一直在群裡熱烈地討論,那就是 如何解釋機器學習模型 ,因為在風控領域,一個模型如果不能得到很好的解釋一般都不會被通過的,在銀行裡會特別的常見,所以大多數同行都是會用 LR 來建模。但是,機器學習的模型演算法這麼多,不用豈不是很浪費?而且有些演算法
機器學習 | 八大步驟解決90%的NLP問題
本文將分八大步驟來介紹如何用機器學習處理文字資料。從最簡單的方法開始,逐一講解,然後分析更具體的
20171028機器學習之線性回歸過擬合問題的解決方案
ces 函數 彈性 alpha mach rom 定性 ast cep 在函數中加入一個正則項: 三種方式: 一、Ridge回歸(嶺回歸): 優點:具有較高的準確性、魯棒性以及穩定性 缺點:求解速度慢 二、Lasso回歸: 優點:求解速度快(原理降維計算
嵌入式Linux編譯內核步驟 / 重點解決機器碼問題
fig 否則 可謂 .... boot 實驗 燒寫 min lin 嵌入式系統更新內核 1. 前言 手裏有一塊Friendly ARM的MINI2451的板子,這周試著編譯內核,然後更新一下這個板子的Linux內核,想要更新Linux Kernel 4.1版本,但是種種原因
機器學習解決問題的框架
color 大小 pos 機器 優化算法 body col bsp 框架 一、確定目標 業務需求 數據 特征工程 (占70%,主要包括數據的清洗,提取,轉換) 二、訓練模型 定義模型 定義損失函數 (偏差的大小) 優化算法 三
斯坦福大學公開課機器學習: advice for applying machine learning | deciding what to try next(revisited)(針對高偏差、高方差問題的解決方法以及隱藏層數的選擇)
ice 簡單 pos .com img 想要 技術 分割 就是 針對高偏差、高方差問題的解決方法: 1、解決高方差問題的方案:增大訓練樣本量、縮小特征量、增大lambda值 2、解決高偏差問題的方案:增大特征量、增加多項式特征(比如x1*x2,x1的平方等等)、減少la
機器學習之路--機器學習演算法一覽,應用建議與解決思路
作者:寒小陽 時間:2016年1月。 出處:http://www.lai18.com/content/2440126.html 宣告:版權所有,轉載請聯絡作者並註明出處 1.引言提起筆來寫這篇部落格,突然有點愧疚和尷尬。愧疚的是,工作雜事多,加之懶癌嚴重,導致這個系列一直沒有更新,向關注該系列的同學們
機器學習中的梯度消失、爆炸原因及其解決方法(筆記1)
前言 本文主要深入介紹深度學習中的梯度消失和梯度爆炸的問題以及解決方案。本文分為三部分,第一部分主要直觀的介紹深度學習中為什麼使用梯度更新,第二部分主要介紹深度學習中梯度消失及爆炸的原因,第三部分對提出梯度消失
機器學習-2(機器學習程式的步驟)
1 收集資料 這一塊你要的知識是如何獲得資料 如果不是自己的生產環境產生的真實資料,你還需要獲得爬蟲的技能,來從外部獲取資料到自己的分析庫。 2 準備輸入資料 這一塊可以理解為資料轉換,把資料格式轉
機器學習中的過擬合和欠擬合現象,以及通過正則化的方式解決。
過擬合: 過擬合(over-fitting)是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過於優越,導致在驗證資料集以及測試資料集中表現不佳的現象。就像上圖中右邊的情況。 過擬合的模型太過具體從而缺少泛化能力,過度的擬合了訓練集中的資料。出現的原因是模型將其中的不重要的變
機器學習中分類與迴歸的解決與區別
機器學習可以解決很多問題,其中最為重要的兩個是 迴歸與分類。 這兩個問題怎麼解決, 它們之間又有什麼區別呢? 以下舉幾個簡單的例子,以給大家一個概念 1. 線性迴歸 迴歸分析常用於分析兩個變數X和Y 之間的關係。 比如 X=房子大小 和 Y=房價 之間的關係, X=(公園人流量,公園門票票價
吳恩達機器學習(五)正則化(解決過擬合問題)
目錄 0. 前言 學習完吳恩達老師機器學習課程的正則化,簡單的做個筆記。文中部分描述屬於個人消化後的理解,僅供參考。 0. 前言 在分類或者回歸時,通常存在兩個問題,“過擬合”(overfitting)和“欠擬合”(underfitting). 過擬
機器學習演算法一覽,應用建議與解決思路 (實用!!!劃重點!!!)
1.引言 提起筆來寫這篇部落格,突然有點愧疚和尷尬。愧疚的是,工作雜事多,加之懶癌嚴重,導致這個系列一直沒有更新,向關注該系列的同學們道個歉。尷尬的是,按理說,機器學習介紹與演算法一覽應該放在最前面寫,詳細的應用建議應該在講完機器學習常用演算法之後寫,突然莫名奇妙在中間
為什麼某個問題可以用機器學習方法來解決?
不知道大家有沒有想過,基於歷史資料去預測未知資料的問題,為什麼我們就知道這種問題可以用機器學習來解決? 偶爾看到了《統計學習方法概論》裡的一個小節,小節的內容我認為可以解答這個問題。總而言之就是,這是一種假設,即假設他可以用機器學習方法來解決,同時假設學習模型是存在的。該小
筆記:TensorFlow實現機器學習演算法的步驟
核心步驟: (1)定義演算法公式,也就是神經網路前向執行時的計算; (2)定義loss,選定optimizer,使用優化器優化loss; (3)開啟迭代的資料訓練操作; (4)計算準確率,做出評測。 【例】TensorFlow實現手寫數字識別 自己編寫的程式碼,親