爭奪智慧化船票:如何邁出第一步 ——訪百度主任科學家 畢然
如今,一個十分有趣的現象是,很多企業趕在大資料AI風口樹立起巨集大的數字化願景或AI願景,但結果卻並不樂觀。究其原因,一方面,高層管理者反覆斟酌數字化、AI化如何長效改變具體的商業模式,這自然是有益的。但大多數人在探討這些概念時,都認為數字化、AI化是巨集大且具有顛覆性的,都有一個雄心勃勃的開始,似乎能在這一輪競爭中脫穎而出。然而,在與競爭中的領先者比較時,會發現很多企業在建立願景上浪費了過多的精力,導致它們沒有精力在這一輪競爭中邁出實質性的第一步。
另一方面,一些高層管理者對整個產業鏈條認識不足,總是寄期望於招聘大量大資料或AI技術人才,實現企業轉型升級。然而,成為數字智慧化的優秀企業,不僅要會用資料、善用資料,還要充分了解自身優勢,利用自身優勢與整個行業從政策到業務做深度融合,才能在機遇面前一步步邁向成功。
百度早就認識到,利用自身在搜尋領域積累的海量資料,進軍人工智慧領域,將迎來又一個新時代的曙光。百度從誕生的那一天起,就帶有人工智慧的天然基因,即以資料為基礎,通過深度學習提取特徵、模式,為使用者和客戶創造價值的研發流程和研發文化,與人工智慧系統的開發高度吻合。
在這一領域建樹頗豐的百度,自然積累了大量成功經驗和模式,近期,《大資料週刊》專訪了百度主任科學家畢然,他專注資料分析、商業戰略、機器學習和人工智慧等領域,獲得百度首屆最高獎,著有《大資料分析的道與術》一書。採訪中他詳細分析了人們在這一領域的一些認知鴻溝,並展示了百度搜索麵向廣大內容方(企業和自媒體)提供AI技術賦能的思路和計劃,頗有讓人茅塞頓開之感。
看點
01
顛覆認知,AI技術的挑戰在整個產業鏈條上
《大資料週刊》:大資料和AI技術成為時下熱門話題,眾多企業趕在這一風口積極佈局,目前在哪些行業領域技術較成熟,落地應用較多?
畢然:首先,我認為IT化、資訊化是基礎,因此目前來看,這些技術和應用在網際網路行業較為成熟,預計金融會成為其次。
真正的大資料技術不是憑空存在的,以模型技術為例,它是將從系統中收集來的資料和業務實施兩者串聯起來,這個設計對資料收集和業務實施均有要求。如資料環節,期望形成自動收集的資料流;而對於業務實施,同樣期望實現機器的自動化執行。
為什麼現在的人工智慧或者大資料,在網際網路行業應用的最為廣泛?其中一個重要原因就是網際網路行業在資料採集端和業務實施端天然適合學習模型發揮作用,因為網際網路大資料本來就是線上的,在產品執行過程中,能夠自動把大量資料收集到系統中(生成日誌)。然後,對於執行來說,如搜尋服務或者個性化推薦服務,雖然是千人千面的個性化服務,但並非人工完成,全部是由機器完成。基於模型產生的個性化建議,也完全可以通過機器執行下去。如此來看,不管個性化生產還是批量生產,成本對於機器來說都是一樣的。以汽車製造為例,如果製造汽車的過程完全由機器完成,那麼無論是生產全黑色車還是其他千奇百怪的車,成本都不變,而一旦換成人工完成,成本將是巨大的。
其次,我認為落地應用多不多很取決於該產業的業務模式,當資料收集端和業務實施端均線上化,應用AI是相對容易的,就像一個人的眼睛和手都跟得上大腦的節奏。如果眼睛和手都沒有準備好,空有大腦是難以產生價值的。
《大資料週刊》:近兩年AI技術在各領域得到快速發展,如百度自動駕駛、阿里城市大腦、騰訊醫療影像、科大訊飛智慧語音等,那麼在技術層面的主要挑戰是什麼?
畢然:主要問題不在於技術,而是完整的產業鏈條,即從需求-業務-資料-技術。很多企業會認為,加入AI就是招一些技術人才,這是完全錯誤的想法。當一個企業所有的產品業務、渠道運營、高階管理職位的人全懂AI的時候,才能真正實現AI的產業落地。
像自動駕駛、語音識別與合成、影象理解和處理等,確實每一個領域均有技術層面的挑戰,但是把這些領域合併來看,他們的共性挑戰是在完整的產業鏈條上。比如,自動駕駛技術就僅僅是感測器和控制演算法這麼簡單嗎?其實,自動駕駛需要整合硬體、軟體、資料、3D高精地圖多方面的技術,並考慮到社會法律、道路設計以及其他層面問題。因此,AI要在某一領域得到更多的發展,需要行業各階層的人都能夠從上到下去擁抱AI技術,懂得AI技術,才能實現AI的全面發展。
在技術層面,有些基礎技術已成熟到實用階段。比如語音識別技術,當大家在使用百度的語音搜尋時,可以發現用小聲的、口語化的語言,也同樣可以做到準確識別,搜尋到豐富內容。以下幾個有趣案例可以嘗試,可以體會到百度搜索在語音識別和自然語言理解技術上做到的成熟效果。
1.“嗯那個桃花流水什麼魚肥的上一句是啥“
2.“哦哦幫我搜一下那個啊李宗盛的漂洋過海來看你“
3.“我明天要去上海查一下天氣“
但還有些基礎技術其實沒有大家想象的那麼成熟。以計算機視覺領域的ImageNet競賽為例,多個影象領域的著名科學家都曾表示,在ImageNet1000類別的識別問題上(Label:打標籤),機器的識別效果已經超越人類,我們應該繼續追求更深層次的語義理解了。不懂行的人往往會關注“機器在識別物體類別上已經超越人類”,而忽略“超越人類是發生在這個特定場景下的”。即ImageNet是在特定任務和充足資料集的前提下,有1000類別和126萬標記資料,平均每個類別1200張圖片。按照計算機視覺演算法的能力,每類樣本量500張+,才能獲得較好識別準確率。但現實世界中,常見的細粒度實體數量為20億+,那麼需要標記的資料就應該是20億*500=10000億。如果要產業落地應用,去哪裡找如此大量的標記資料?“在足夠的標記資料下,計算機識別分類的效果超越人類”,這句話正如阿基米德的宣言:“給我一根足夠長的槓桿,我能撬動地球!撬動地球的技術我們已經解決了,只要找到足夠長的槓桿即可“。由此可見,基礎技術在理論上解決了問題,並不代表現實中可以落地應用。
所以,如何基於現有的技術水平,進行有效的產品設計,提供有使用價值的產品才是AI應用的核心。這裡以百度視覺搜尋為例,談談我們的實踐心得。點選百度APP中搜索框旁邊的照相機圖示,即可以隨意拍攝現實物體進行搜尋查詢。因為隨意拍攝照片中的物體,如隨手拍攝的辦公桌綠蘿盆栽,受光線或柔性可變等干擾因素影響,如果沒有足夠的訓練資料,往往無法精準識別該物種。這時視覺搜尋產品會提供一張篩選卡片,展示視覺上最相似的一些植物候選,供使用者選擇。人的視覺識別能力往往是更加強大的,使用者通過觀察拍攝的物體和我們提供的候選圖片,就能確定他拍攝的植物類別。然後,視覺搜尋會提供該植物的更多說明和介紹,以及相關的網頁搜尋結果。這個產品是在基礎影象技術不足的場景下,通過有效的產品設計,將人的識圖能力和機器識圖能力整合(後者用於提供候選,前者使用者最終篩選),幫助使用者解決識別萬物的任務。這種設計思路,我認為是在產業實踐中更重要的思考。春天到了,大家去野外郊遊的時候,不防多用用視覺搜尋,探索下這個多彩的世界,也體會下計算機視覺給我們帶來的便利。
(如何將人的能力和機器的能力進行有效的結合,產生有使用價值的“視覺搜尋產品“)
看點
02
跨越壁壘,資料來源企業將會脫穎而出
《大資料週刊》:AI的基礎和核心是大資料,目前,在資料採集、資料探勘、資料融合共享等層面還存在哪些壁壘?
畢然:AI技術的核心是大資料這句話非常正確,目前最大的壁壘應該是資料壁壘。大資料時代往往會發現傳統演算法(不依賴資料)依然非常有效,比如視覺搜尋的例子,SIFT特徵依然非常有效。所以,期望大家更理性的看待大資料。
眾所周知AlphaGo圍棋下得厲害,但實際上AlphaGo在訓練資料獲取的環節是取巧的。AlphaGo訓練用的海量資料是通過機器自己與自己下棋來採集的。而在工業界的大量應用場景中,要採集資料則無法這麼簡單地實現。因此,只能說AlphaGo在技術層面是很創新的突破,但從獲取資料層面是取巧的方法,而這種方法無法在其它工業界的實用的任務上覆制。
今天深度學習備受關注,深度學習能解決很多難題,並帶來多個領域的突破。但是,真正在工業界應用時,非深度學習的、傳統的演算法和特徵依然是非常有效的。其中的重要原因就是這些傳統方法不太依賴大資料,因為工業實踐中,並不是所有的應用場景都有足夠大量的資料。所以,千萬不要人云亦云,在大資料時代,只關心大資料的演算法是要吃虧的。
剛才談了AI技術的核心在於資料,而資料往往來源於業務場景。無論是AI技術還是任何黑科技,技術本身都不是壁壘,任何一個新興技術,包括AI技術,都只是競爭的時間視窗,資料才是真正的壁壘。從長遠來看,資料技術公司競爭不過資料公司,因為技術可以通過學習獲取,但資料沒辦法獲取。
除了資料本身,挖掘其價值方面的關鍵在於人才。曾與傳統行業管理者交流,傳統行業的業務人員期望由外包人員進行資料統計的支援,他們再對統計結果進行分析,這是非常低效的。未來處理和分析資料的能力,就如開汽車一樣是常備技能。現在對資料的分析和挖掘面臨同樣的問題,我認為所有的業務人員都應該會寫基本的指令碼程式,例如SQL和Python,能夠自由的處理系統中各種各樣的資料,分析輔助業務的發展。如果業務人員不會處理資料,需要專門配資料統計工程師。這不僅是人力浪費的問題,而意味著業務人員的分析能力被鎖死了,每一個分析思路和想法均需要和統計工程師溝通需求,反覆幾輪迭代需要一週才能拿到驗證結果。而業務人員自己會擺弄資料的話,各種思路想法的探索只需要1~2個小時。在分析效率上的巨大差距,導致在業務改進的效率上的巨大差距。目前在網際網路公司,許多新入職的產品同學也要學程式設計處理資料,但好像傳統行業在這個意識層面還比較薄弱。
看點
03
人才洞察:開創者、經驗者、應用者迎來康莊大道
《大資料週刊》:人工智慧被看成是新一輪變革的主要力量,相關技術人才則是主導這一變革的中流砥柱。而這類人才的缺口和不菲的身價成為眾多人才希望轉型AI的關鍵因素,那麼,對於轉型AI的人才您有什麼好的建議?
畢然:我認為大家目前存在兩個誤區。首先,很多應屆畢業生認為自己的數學基礎很好,投身這個行業就是有優勢的,雖然也沒錯,但數學好只是一個助力條件,不能當成自己的核心優勢。為什麼這麼說呢?因為數學好基本表現在剛畢業時,未來會持續有更多剛畢業的學生,加上長期在這一領域做研究的科研人員和教授,如果這樣定位,自己的競爭者是非常龐大的。所以,我不認為數學好可以作為核心優勢。
其次,現在有很多AI人才培訓班,有人認為培訓一下就可以利用各種平臺寫各種深度學習的演算法了,這一點我並不贊同。如果把深度學習和演算法定義為核心競爭力,那麼,未來就會面臨大量的培訓班出來的人才,就如幾年前大量培訓班出來的JAVA程式設計人員類似。
所以,轉型AI人真正應該走的有三條路:
一是成為開創者,但能夠走上這條路的人很少,都是學術界和工業界鳳毛麟角的大牛們。
二是成為經驗者,比如做模型,基本道理大家都懂,但具體環境如何打磨得好,如何去調整引數,如何去選擇模型,如何設計特徵,都需要相當多的經驗。同時,通透的理解模型背後的數學原理,往往對形成體系化的經驗非常有幫助。經驗者有一個好處,他是時間的朋友,經驗會隨著時間的增長越來越好。
三是成為應用者,應用者對於傳統企業以及很多做AI的人都非常實用。應用者不僅要懂得整個產業的所有應用,還要懂AI技術,屬於跨領域的人才,這也是目前做AI產業應用需求缺口最大的一批人。
當然,提升AI技術能力的最佳辦法是實踐,而這方面百度有著國內實踐AI技術最好的平臺和專案,比如搜尋、Feed流、度祕、無人車,甚至與很多傳統行業合作的企業AI賦能。另外,與公司內的諸多AI技術的創新者和領導者共事,也是大家學習提升的捷徑。
《大資料週刊》:如何能在資料分析中得到有價值的分析結論?
畢然:在《大資料分析的道與術》一書中,我講到不要小瞧資料分析的威力,因果性的探討+人的分析能力,往往是業務革新的發動機。有一些過去很火的模型(如決策樹),在最新的一些業務系統中使用的已經不多了,更多都在用升級的GBDT或深度學習模型。但決策樹模型依然在我們分析很多資料關係時被使用,因為它可以讓人更好的解讀資料中的內涵。而不像深度學習,雖然可以做有效的預測模型,但無法人工解讀。機器學習模型更多是增進業務效率,但改進業務模式本身還是需要人的設計。所以,人對資料解讀的能力,怎麼強調其重要性都不過分。《大資料分析的道與術》配套有9個小時的課程可以在百度技術學院(bit.baidu.com)上免費觀看。另一個系列的課程《機器學習的思考故事》於2018年春節後在百度技術學院推出,從應用的角度向更曠闊的領域談了機器學習的思考和應用方法論。
雖然大家都在談人工智慧和機器學習,但對於相當多的企業來說,目前最大的問題不是如何從資料中建立人工智慧的模型,而是先要做好資料分析,找出可產生的價值,才能在短期內對業務發展變革產生較大影響。
《大資料週刊》:百度有哪些技術平臺可以提供給眾多的企業,能讓大家一起共享AI技術為產業帶來的福利?
畢然:如果是網際網路內容提供的企業或自媒體,可以關注百度搜索“熊掌號”,2018年會向諸多合作伙伴提供AI技術賦能的解決方案,對於網際網路內容方的流量獲取、使用者運營、內容生產多方面提供定製化的AI技術支援。熊掌號的AI賦能是更加全面的搜尋與內容方的合作,提供的不僅僅是單獨的AI技術點,而是融入搜尋體系,與搜尋使用者更好溝通的解決方案。如果是一個主要業務不在網際網路上的傳統企業,或者技術研發者,也可以檢視ai.baidu.com的百度AI技術對外開放平臺,獲取一些通用的AI技術實現模組。
大資料週刊
電話:010-57524293
眾論大資料 引領大時代
長按二維碼關注