讓人頭疼的AI bug (隨想)
阿新 • • 發佈:2021-03-04
雖然概念上,人工智慧和機器學習不等同。但是本文提及的AI,指的是基於機器學習的AI.
一個軟體產品,出了錯誤叫bug,bug需要修。那一個機器學習的模型,準確率在那擺著呢,大夥心知肚明是有一定的犯錯率的,怎麼辦。想了想,可能就是這麼辦吧。
不予理會。推薦引擎推薦錯了,質量不高,也不會搞出什麼大問題。continuous research,以提高轉換率為目標,繼續努力就好了。
和bug一樣,得修,模型必須改進。比如說,公交車董明珠的廣告當作董明珠闖紅燈。
和bug一樣,得修,可是模型該進不了了。寫一些rule,強行修正,或者在模型前端寫一些rule來過濾。比如說NER專名識別,可以寫一些正則表示式來補捉一下被模型漏掉的片語。
或者乾脆公開表示,模型是有錯誤的,對錯誤敏感的問題,請根據評分,進行人工干預糾正。
對於QA來說,AI Bug真的是比較頭疼。什麼是bug嘛。你倒是給我說一下,什麼樣的錯誤得報告。AI QA說,AI部分的測試,大部分的情況就是做一下合理性檢測,保證一下沒有因為軟體的bug,而使得輸出的都是垃圾的問題。模型質量還是必須依賴實驗室的統計資料為準。確實,對於AI QA也沒什麼標準可循。
最近聽一個talk,其中提到,過去十年,大部分的企業的AI feature還是nice to have. 未來十年是must have. 既然是must have,那對於質量問題就必須正面嚴謹對待。對於AI能夠解決的問題,市場營銷上也從搞噱頭造勢,轉到更加實事求是地闡述AI在該領域能解決的問題。曾經看到一個Legal AI是這麼說的,我們不是要取代你們的工作,我們是讓你們的工作更加的輕鬆,不用浪費生命與枯燥重複的事情上。基於這樣的定位,對於AI的錯誤,勢必要嚴謹對待,不能向以前那樣不管,以前反正是nice to have的功能嘛。
Amazon去年release了a2i,提供了一個使用者反饋框架,讓使用者稽核那些評分較低的預測。這看上去貌似和主潮流不符。research屆不是此起彼伏報告模型準確率破紀錄嗎,怎麼這麼多年過去了,還搞人工干預糾正AI了。我想這也可能是AI implementaion走向成熟期的一個表現吧。真正的做到普及之前,必須有能力對質量有更好的monitor,對錯誤作出及時的反饋。目標是一個成熟可用的系統,而不是nice to have的無人問津的功能。當然a2另外一個很大的作用是收集使用者的反饋來作為模型輸入,以更好的提高模型質量。
提到修AI Bug的強有力手段,rule,想起了多年前一個朋友曾提及他的朋友在某公司從事AI,後來發現流水線上起作用的主要部分是rule,而不是機器學習演算法。作為新生代AI宗教信徒的他,過不了這個fake AI的梗,果斷離職。不過相信多年磨礪之後,遭遇了AI領域更多理想和現實的矛盾,現在可能沒當初那麼義憤填膺了。大部分的機器學習工程師對於rule的感情是很複雜的,既鄙視它,又離不開它。實際上,如果不是完全黑盒子的深度學習,AI 流水線上需要涉及到很大工作量的特徵工程。而很大可能,某個特徵就是一個rule產生的。縱覽整個流水線,rule比重多一點還是機器學習演算法比重多一點呢。AI落實到實際產品,腳踏實地必須自動化一些重複工作的時候,可能並不需要太較真。畢竟rule工作本身很繁瑣,當演算法在工程上達到標準後,rule被取代那是必然之勢。
閱讀作者更多原創文章,關注微信公眾號: