導致機器學習失敗的6種錯誤方法，不要一錯再錯！

阿新 • • 發佈：2019-01-12

當你在你的企業中實施機器學習時，要小心：一些技術營銷可能會讓你覺得學習非常正確，速度非常快，這是對技術不切實際的期望。事實是：在機器學習過程中必然會有錯誤。而且這些錯誤至少在一段時間內會在業務流程中被編碼。結果是：這些錯誤可能會大規模發生,而且往往超出了人類的直接控制。

機器學習在學習過程中總會犯錯。機器學習採用者需要預見到這一點，並時刻小心，不要因為IT和業務的人為錯誤而使事情變得更糟。

一般來說，學習的過程往往就是一個不斷犯錯誤，走錯誤道路的過程，然後找出方法來在未來避免這些錯誤。機器學習也不例外。

當你在你的企業中實施機器學習時，要小心：一些技術營銷可能會讓你覺得學習非常正確,速度非常快，這是對技術不切實際的期望。事實是，在機器學習過程中必然會有錯誤。而且這些錯誤至少在一段時間內會在業務流程中被編碼。結果是：這些錯誤可能會大規模發生，而且往往超出了人類的直接控制。

SPR諮詢公司(SPR Consulting)的首席資料科學家Ray Johnson表示:“缺乏盡職調查的熱情可能會導致一些問題，使機器學習的好處無法得到展示。”

在這裡給大家推薦一個python系統學習q群：{{250933691:0}}有免費開發工具以及初學資料，（資料分析，爬蟲，機器學習，神經網路）每天有老師給大家免費授課，歡迎一起交流學習

檢測和處理機器學習錯誤將有助於您在技術上取得更大的成功，並滿足您的機器學習期望。

以下是一些可能會增加和延長機器學習工具在學習過程中所犯錯誤的問題--他們甚至可能永遠也無法識別和糾正這些錯誤教訓。

>>>>

缺乏對問題的業務理解會導致機器學習失敗

一些使用機器學習模型的資料工作者並不真正瞭解機器學習試圖解決的業務問題,這可能會在流程中引入錯誤。

當他的團隊使用機器學習工具時，金融服務網站LendingTree的副總裁兼戰略與分析主管Akshay Tandon鼓勵團隊從一個假設開始宣告。該宣告應該詢問您要解決的問題是什麼,以及您要構建哪些模型來解決該問題。

Tandon說：從統計方面來看，今天可用的機器學習工具非常強大。這就給正確地執行它增加了更大的負擔，因為這些強大的工具,如果不小心使用，可能會導致重要的錯誤決策。如果資料分析團隊不夠小心,他們最終可能會得到與團隊所使用的特定資料不匹配的模型。迅速惡化的結果會導致模型很快就可能出錯，他說。

此外，許多商業使用者都不明白，從投入生產的那一刻開始，模型的質量就會有一定程度的下降，Tandon說。如果認識到這一點,就像對待汽車或任何其他機器一樣,使用者就會知道自己需要不斷地監控它,並關注它是如何影響決策的。

>>>>

低質量的資料會導致機器學習錯誤

進去的是垃圾，出來的也會是垃圾。如果資料質量不夠完善，機器學習也會受到影響。資料質量差是資料管理人員最關心的問題之一，儘管資料科學家和其他從事資訊工作的專業人員都有最好的意圖，但它仍然可能危及大資料分析工作。它也會讓機器學習模式偏離軌道。

組織經常高估機器學習演算法的彈性，低估不良資料的影響。Johnson說,糟糕的資料質量會產生糟糕的結果，並導致組織做出不明智的業務決策。這些決策的結果將損害業務績效,並使未來的計劃難以獲得支援。

根據過去和現在的經驗，你可以從機器學習驅動的結果中檢測出不好的資料質量,而這些結果似乎毫無意義。

Johnson說：解決這個問題的一種積極主動的方法是探索性的資料分析(EDA)。EDA可以識別基本的資料質量問題，例如離群值、缺失值和不一致的域值。你還可以使用統計抽樣等技術來確定是否有足夠的資料點例項來充分反映人口分佈,並定義有關資料質量修正的規則和策略。

>>>>

機器學習的不當使用

劍橋諮詢公司(Cambridge Consultants)的專業機器學習工程師Sally Epstein表示：“我們仍然從企業中看到的最常見問題是，人們只是為了流行而希望使用機器學習。”但她說,要想取得成功,必須正確應用該工具。而且傳統的工程方法可能可以更快地提供解決方案,而且成本更低。

Johnson說：當機器學習可能不是解決問題的最佳選擇，並且不完全理解用例時,使用機器學習可能會導致其試圖解決一個錯誤的問題。

此外，解決錯誤的問題也將導致失去機會，因為組織會努力將其用例定製為一個特定的、不合適的模型。這包括在人員和基礎設施部署方面浪費的資源，而這些本來可以使用更簡單的替代方法來實現可能的結果。

為了避免機器學習的錯誤使用,你需要仔細考慮期望的業務結果、問題的複雜性、資料量和屬性的數量。Johnson說,相對簡單的問題,如分類、聚類和使用少量具有一些屬性的資料關聯規則,可以通過視覺或統計分析來解決。在這些情況下,部署機器學習可能需要比常規方法更多的時間和資源。

而當資料量變大時，機器學習可能更合適。但是，已經通過機器學習訓練，然後才發現業務結果尚未明確定義並導致解決錯誤問題的情況也並不罕見。

>>>>

機器學習模型可能有偏見

使用一個低質量的資料集可能帶來一個誤導性的結論。這不僅會引入不準確性和缺失資料，還會引入對問題的偏見。每個人都會有偏見,所以人們創造或啟發的模型也可能包含偏見。

Epstein說：每種機器學習演算法對不平衡的類或分佈都有不同的敏感性。如果不解決這些問題，你最終得到的面部識別工具，可能會依賴於面板顏色，或者帶有性別偏見。事實上，這已經發生在一些商業服務中了。

結論的準確性-無論是演算法的準確性還是個人的準確性-取決於所處理資訊的廣度和質量。諮詢公司Deloitte諮詢分析服務領域負責人Vic Katyal說，組織和個人所面臨的因演算法偏差帶來的財務、法律和聲譽風險就是為什麼任何使用機器學習的公司都應該將道德規範作為組織的必要條件的一個例子。

Katyal說：在公共領域,諸如信用評分、教育課程、招聘和刑事司法判決等方面，演算法偏差的跡象已經被充分記錄。收集、整理或應用不當的資料甚至會在設計最完善、目標明確的機器學習應用程式中引入偏差。

他說：帶有固有偏見的機器學習系統會威脅到客戶或社會利益相關者中的弱勢群體,並可能產生或延續不公平的結果。

諮詢公司麥肯錫(McKinsey)在2017年的一份報告中指出,演算法偏差是機器學習的最大風險之一，因為它會損害機器學習的真正目的。該公司表示,這是一個經常被忽視的缺陷，它會引發代價高昂的錯誤,如果不加以檢查，可能會將專案和組織拉向完全錯誤的方向。

麥肯錫說，從一開始就有效地解決這一問題將獲得豐厚的回報，使機器學習的真正潛力得到最有效地實現。

>>>>

沒有充足的資源來做好機器學習

當啟動機器學習計劃時，組織很容易低估人員和基礎設施所需的資源。機器學習可能需要大量的基礎設施，尤其是在影象、視訊和音訊處理等領域。

Johnson說：如果沒有所需的處理能力，及時開發基於機器學習的解決方案可能是非常困難的，如果非做不可的話。

另外，還存在部署和消耗問題。如果基礎設施不到位，不允許使用者部署和使用結果，那麼開發機器學習解決方案有什麼用呢?

部署一個可擴充套件的基礎設施來支援機器學習可能是昂貴的，並且很難維護。但是，有幾種雲服務可以提供可擴充套件的機器學習平臺，可以按需配置。Johnsons說：雲方法允許你進行大規模的機器學習實驗，而沒有物理硬體的獲取、配置和部署的束縛。

但一些組織希望自己擁有自己的基礎設施。如果是這樣的話,雲服務也可以作為跳板和教育經驗，這樣這些組織在進行大規模投資之前就可以從基礎設施的角度瞭解需要什麼了。

從人才的角度來看,缺乏諸如資料科學家和機器學習工程師等知識型資源也可能會阻礙機器學習的發展和部署。擁有了解機器學習概念，應用程式和可解釋的資源，確定是否實現了特定的業務成果，這一點至關重要。

Johnson說：不要低估擁有豐富機器學習技能的重要性。擁有豐富知識的人員可以幫助識別資料質量問題，確保正確使用和部署機器學習工具，並幫助建立最佳實踐和治理策略。

>>>>

糟糕的計劃和缺乏治理會破壞機器學習

機器學習的努力可能會以熱情開始，但隨後也會因失去動力而陷入停頓。這是沒有計劃和缺乏治理的表現。

Johnson說：如果沒有適當的指導方針和限制,機器學習的努力將無限期地持續下去，可能會導致巨大的資源支出,而無法帶來任何好處。

組織需要記住，機器學習是一個反覆的過程,隨著時間的推移也需要修改模型來支援不斷變化的需求。因此，從事機器學習的人可能會對完成這項工作缺乏興趣，從而導致一個不良的結果。專案發起人可能會轉向其他工作，而機器學習工作最終會停滯不前。

Johnson說：你需要定期監控機器學習的工作，以確保事情能夠順利進行。如果發現進度開始放緩，可能是時候休息一下，並重新檢查一下工作了。

導致機器學習失敗的6種錯誤方法，不要一錯再錯！

導致機器學習失敗的6種錯誤方法，不要一錯再錯！

機器學習1《特征抽取，歸一化與標準化》

連結串列反轉的兩種實現方法，後一種擊敗了100%的使用者！

機器學習的13種演算法和4種學習方法，推薦給大家

【模式識別與機器學習】——3.9勢函式法：一種確定性的非線性分類方法

【機器學習】5種距離度量方法詳解+Python實現([]+lambda+np.frompyfunc+向量法等多種方法實現)

為何大量網站不能抓取?爬蟲突破封禁的6種常見方法 - 轉載

關於機器學習中的一些常用方法的補充

Python機器學習：6.6 不同的性能評價指標

Python機器學習：6.3 使用學習曲線和驗證曲線調試算法

機器學習之特征選擇方法

[js]js中6種錯誤處理機制

機器學習：幾種分類識別問題

【機器學習】正則化方法

機器學習中一些方向以及方法的大體解釋

機器學習（6）K近鄰演算法

全志平臺Tina系統I2C struct 缺少class定義導致的probe失敗等問題解決方法

爬蟲突破封禁的6種常見方法

機器學習系列文章：引數方法（最大似然、分類、迴歸）

機器學習系統設計和診斷方法學習總結

導致機器學習失敗的6種錯誤方法，不要一錯再錯！

相關推薦