讓人頭疼的AI bug (隨想)

雖然概念上，人工智慧和機器學習不等同。但是本文提及的AI，指的是基於機器學習的AI. 一個軟體產品，出了錯誤叫bug，bug需要修。那一個機器學習的模型，準確率在那擺著呢，大夥心知肚明是有一定的犯錯率的，怎麼辦。想了想，可能就是這麼辦吧。不予理會。推薦引擎推薦錯了，質量不高，也不會搞出什麼大問題。continuous research，以提高轉換率為目標，繼續努力就好了。和bug一樣，得修，模型必須改進。比如說，公交車董明珠的廣告當作董明珠闖紅燈。和bug一樣，得修，可是模型該進不了了。寫一些rule，強行修正，或者在模型前端寫一些rule來過濾。比如說NER專名識別，可以寫一些正則表示式來補捉一下被模型漏掉的片語。或者乾脆公開表示，模型是有錯誤的，對錯誤敏感的問題，請根據評分，進行人工干預糾正。對於QA來說，AI Bug真的是比較頭疼。什麼是bug嘛。你倒是給我說一下，什麼樣的錯誤得報告。AI QA說，AI部分的測試，大部分的情況就是做一下合理性檢測，保證一下沒有因為軟體的bug，而使得輸出的都是垃圾的問題。模型質量還是必須依賴實驗室的統計資料為準。確實，對於AI QA也沒什麼標準可循。最近聽一個talk，其中提到，過去十年，大部分的企業的AI feature還是nice to have. 未來十年是must have. 既然是must have，那對於質量問題就必須正面嚴謹對待。對於AI能夠解決的問題，市場營銷上也從搞噱頭造勢，轉到更加實事求是地闡述AI在該領域能解決的問題。曾經看到一個Legal AI是這麼說的，我們不是要取代你們的工作，我們是讓你們的工作更加的輕鬆，不用浪費生命與枯燥重複的事情上。基於這樣的定位，對於AI的錯誤，勢必要嚴謹對待，不能向以前那樣不管，以前反正是nice to have的功能嘛。 Amazon去年release了a2i，提供了一個使用者反饋框架，讓使用者稽核那些評分較低的預測。這看上去貌似和主潮流不符。research屆不是此起彼伏報告模型準確率破紀錄嗎，怎麼這麼多年過去了，還搞人工干預糾正AI了。我想這也可能是AI implementaion走向成熟期的一個表現吧。真正的做到普及之前，必須有能力對質量有更好的monitor，對錯誤作出及時的反饋。目標是一個成熟可用的系統，而不是nice to have的無人問津的功能。當然a2另外一個很大的作用是收集使用者的反饋來作為模型輸入，以更好的提高模型質量。提到修AI Bug的強有力手段，rule，想起了多年前一個朋友曾提及他的朋友在某公司從事AI，後來發現流水線上起作用的主要部分是rule，而不是機器學習演算法。作為新生代AI宗教信徒的他，過不了這個fake AI的梗，果斷離職。不過相信多年磨礪之後，遭遇了AI領域更多理想和現實的矛盾，現在可能沒當初那麼義憤填膺了。大部分的機器學習工程師對於rule的感情是很複雜的，既鄙視它，又離不開它。實際上，如果不是完全黑盒子的深度學習，AI 流水線上需要涉及到很大工作量的特徵工程。而很大可能，某個特徵就是一個rule產生的。縱覽整個流水線，rule比重多一點還是機器學習演算法比重多一點呢。AI落實到實際產品，腳踏實地必須自動化一些重複工作的時候，可能並不需要太較真。畢竟rule工作本身很繁瑣，當演算法在工程上達到標準後，rule被取代那是必然之勢。閱讀作者更多原創文章，關注微信公眾號:

讓人頭疼的AI bug (隨想)

讓人頭疼的AI bug (隨想)

讓人頭疼的this

最讓人頭疼的清洗資料過程----選擇合適的方式快速命中所需的資料

落後還會莫名發笑的伊藤美誠她的確很讓人頭疼

Swift：讓人頭疼的函式傳參

IE 讓人頭疼的相容

教你怎樣寫讓人頭疼並且高質量的工作日誌

AI就是讓人覺得不可思議的計算機程式

AI就是讓人覺得不可思議的計算機程序

AI都幹過什麼讓人細思極恐的事？

絕對不要在解構函式中釋放單例-----這個至少3000元的bug讓人蛋疼兩三天

讓人蛋疼的一下午

怎樣讓人的一生價值最大

棉花做肉松、塑料做大米讓人哭笑不得！

sandglass(沙漏)——一個讓人解脫的python時間處理庫

讓人非常easy誤解的TCP擁塞控制算法

[轉] 【譯】讓人傾倒的 11 個 npm trick

為什麽越來越多的人認為AI存在危險?

語音信息讓人“害怕”！社交焦慮癥要更深一步了？

[daily][archlinux] 那些懸而未絕,久久無法忘懷,搞啊搞啊搞不定,沒有辦法,讓人瘋掉,卻只能天天憋屈著忍著的問題

讓人頭疼的AI bug (隨想)

相關推薦