【機器學習調查】髒資料最棘手,邏輯迴歸最常用
新智元編譯
來源:The Verge
作者:James Vincent 編譯:馬文
【新智元導讀】資料科學社群Kaggle的最新調查顯示,機器學習和資料科學研究者在被問到工作中面臨的最大障礙時,最常見的回答是“髒資料”,其次是缺乏該領域的人才。此外,他們最常用的方法是“邏輯迴歸”,而神經網路只排在第4位。
想象一下機器學習研究者的生活,你可能會覺得很令人嚮往。你會給自動駕駛汽車程式設計,在科技界的巨頭公司工作,而你編寫的軟體甚至可能導致人類的滅亡。太酷了!但是,正如最近一項針對資料科學家和機器學習研究者的調查所顯示的,這些期待需要調整,因為這些職業面臨的最大的挑戰是一些相當平常的事情:清洗髒資料。
這是來自資料科學社群Kaggle(今年早些時候被谷歌收購)的一項調查。該網站130萬會員中,約有16700人回答了問卷調查,當被問及工作中面臨的最大障礙時,最常見的回答是“髒資料”(dirty data),其次是缺乏該領域的人才。
“工作中遇到的最大障礙是什麼?”,接近一半被調查者回答“Dirty data”
但是究竟什麼是髒資料,為什麼會出現這樣的問題呢?
資料是數字經濟的新石油,這是不言而喻的,但在機器學習之類的領域尤其如此。現代的人工智慧系統一般都是通過示例來學習的,也就是說如果你展示給AI系統一大堆“貓”的圖片,隨著時間的推移,它會開始識別構成“貓”的特徵。這就是為什麼像谷歌和亞馬遜這樣的公司能夠建立起如此有效的影象和語音識別平臺的原因:它們擁有大量來自使用者的資料。
但AI系統仍然只是計算機程式,這意味著如果你在錯誤的時間按下錯誤的按鈕,它們很容易出現故障。這種不靈活性包括他們要學習的資料。這些程式就像那些挑食的嬰兒,除非香蕉攪碎了,否則他們不吃。AI領域的研究員雖然不用處理香蕉,但是要梳理數以萬計條目的資料集,追蹤丟失的值,刪除任何的格式錯誤。
“有一個笑話是,資料科學中80%的工作是資料清洗,另外20%是抱怨資料清洗。”Kaggle的創始人兼執行長 Anthony Goldbloom 在 The Verge 的郵件採訪中說道。“在現實中,不同情況資料清洗的工作量有所不同。但是資料清洗在資料科學工作中的比例要高於外界的想象。實際上,訓練模型通常只佔機器學習研究者或資料科學家工作的一小部分(不到10%)。”
Kaggle 這個網站最著名的是競賽,任何公司都可以在上面釋出一個特定的資料相關的挑戰賽,然後付錢給提出最佳解決方案的人。(錢雖然不多,但這是贏得僱主注意的一種很好的方式。)這意味著Kaggle本身也成為了一個有趣的資料集的庫,使用者可以用它們做研究。資料集的範圍很廣,從22000份高中論文,到肺癌的CT掃描,再到大量的魚類圖片(美國一家環保NGO釋出的,希望能吸引到更好的識別魚類的AI)。
Kaggle的調查也不僅與資料有關,還包括其他有趣的資訊。例如,被調查者中受教育程度最普遍的是碩士學位(其次是學士學位,然後是博士學位)。Python是最常用的程式語言,也是他們向想要進入該領域的人推薦的語言的第一名。同樣值得注意的是,儘管人們將注意力集中在像神經網路這樣的新資料工具上,但大多數從業者更多依賴那些較老的、不那麼吸引人的統計學方法。
例如,在“工作中使用什麼資料科學方法”這個問題中,“邏輯迴歸”的回答最多(63.5%),而神經網路只排在第4位(37.6%)。作為一種數學工具,邏輯迴歸方法已經存在幾個世紀了,它被用來發現任何給定資料集的某個點屬於某個特定類別的概率。Goldbloom認為,它之所以受歡迎的原因之一是,它是大學課程的基礎知識,並且在各種各樣的領域都可使用。
他說:“每一個本科有統計學相關課程的學生都會學到線性迴歸和邏輯迴歸,包括機器學習,計量經濟學,心理學,生物資訊學,等等。”Goldbloom說,作為一種數學工具,它可能“不是非常強大”,但學術和行業的慣性意味著它不會很快消失。正如Kaggle的一位排名高的“grandmaster”在調查回答中說:“30萬年後,地球上仍將存在石頭、蟑螂和邏輯迴歸。”
與此同時,最受關注的是神經網路,因為這類方法特別適合於涉及影象、視訊和音訊資料的任務。(這些正是現在AI變得很酷的方向。)不過,對於文字和數字資訊,較老的方法更合適。因此,如果你打算儘快入門機器學習或資料科學,準備好開始清洗資料吧!
原文地址:https://www.theverge.com/2017/11/1/16589246/machine-learning-data-science-dirty-data-kaggle-survey-2017
瞭解更多:https://www.kaggle.com/surveys/2017?utm=cade
點選下方“閱讀原文”瞭解大資料實驗平臺
↓↓↓