科創人·天雲資料CEO雷濤:打造正確理解數智的認知體系
雷濤 天雲資料CEO
榮獲國家級AI最高獎項:吳文俊人工智慧科學技術發明獎。
2020年中關村高階領軍人才獲得者;首批CCF中國計算機學會大資料專委會委員;主導並參與匯豐銀行、中國移動、中國聯通、工商銀行總部等多個億級大型資訊化專案規劃建設。
—
文 | babayage
編輯 | 笑 笑
兩年多求索,《科創人》逐漸形成了一套價值判斷標準:分享價值觀>分享方法,分享底層認知>分享經驗,分享解題原則>分享單題答案……選擇成長經歷為敘事載體,是因為人生的關鍵選擇、決斷中,最能體現其認知、原則、價值觀。
既然價值是目的、敘事是手段,就不應為逢迎手段而降低價值傳遞的效率,因此《科創人》決定為一些善於體系化分享認知、原則和底層邏輯的前輩大咖破例,對他們的分享內容放棄二開、呈上原始碼。
第一位,有請天雲資料CEO雷濤。
正規化、經驗主義失效
破壞力來自資料原生
科創人:越來越多的人意識到,這是一個傳統正規化、經驗主義失效的時代,是重新尋找正確答案的時代,您認為衝擊既有方法論體系的力量來自何處?
雷濤:每個時代的巨集觀特徵一定不是單一要素導致的,但也一定有一些要素足以對其產生塑造作用。在我看來,基於先驗主義而非科學邏輯的那部分知識體系,正在被資料原生的全新知識生產體系所替代、瓦解。
今年(2021年)年初, 谷歌雲人工智慧應用人工智慧工程師戴爾・馬爾科維茨投入了一項有趣的研究:讓人工智慧學習餅乾鬆脆、蛋糕鬆軟背後的科學原因,從而完成一個AI烘培菜譜。能否從烘烤工藝決定做餅乾還是蛋糕?機器學習的結果是:烘焙的工藝過程上已經不能定義清晰,只能從原材料的成分上加以界定。
餅乾和蛋糕的機器學習過程,以及其他無數的類似案例,告訴了我們一個事實:數字化世界裡的知識,是構建在輸入(成分)和結果上的,和我們人類所習慣的白盒過程推理認知(菜譜)相差很大。我們必須認識到,數字世界中,很多人類已有的知識判斷往往失效了,比如我們如何認定機器智慧的圖靈測試方法,谷歌大會上已經證偽了圖靈測試識別機器與人。
資料原生將帶來新的知識生產革命,白盒的過程推理認知將被黑盒的數字長程演算替代,後者更準確,更強。
y=f(x),資料原生推動知識生產革命
科創人:大部分聲音還是將數字化帶來的變革稱為轉型,但您很果決地使用了革命這個詞,您如何定義知識革命?
雷濤:我們從知識的生產所經歷的四個發展階段總結:
1 科學實驗: 遠古的鑽木取火到伽利略的比薩斜塔,知識從實踐中生產;
2 理論推理: 牛頓利用微積分數學工具推導,知識從公理公式中生產;
3 模擬計算: 基於已知對物理世界模擬建模,知識從規模計算中生產;
4 資料原生: 面向答案求解不確定過程,知識從海量資料關聯中生產;
數字經濟正在經歷“資料孿生”向“資料原生”發展階段,前者將人類已有知識應用於數字虛擬世界,尚處於第三階段,但後者生產適應於數字經濟的新認知,是另一個層次的存在。
資料孿生推動知識生產的階段,是試圖用已有的認知和知識結構,去解決虛擬數字世界裡的問題,用我們的知識白盒構建一個模型,做高效能運算去推理,知識計算更多依賴公理認知的已有知識自動化,算力基礎設施是超算中心的HPC高效能運算叢集。面對複雜動態個性化的計算場景,白盒建模的模擬遇到天花板,例如基於地球物理經典理論建模的氣象預報,在局地氣象和雷暴等突發極限氣象的求解失效。
數字原生是如何生產人類認知之外的新知識。就像Alpha Go,它沒有從人類最佳實踐優秀棋譜裡學習,沒有從已有知識裡學習,而是從行為資料(黑白落子)中,面向結果(輸贏) 學習中間不確定性的過程,生產出新的知識,重構新的業務流程和實踐。例如電商推薦演算法重構了零售商業,打車軟體的規劃演算法重構供給和需求的商業組織形態。
數字原生在重構人類認知。
科創人:資料原生的知識生產方式,從生產知識到改變物理世界的傳導機制是怎樣的?
雷濤:舉個AI商業應用的例子,現代企業的業務模式正在經歷從流程驅動到資料驅動轉變的商業重構,人工智慧已經可以替代傳統的經驗、規則、流程,重構商業實踐,促成新型商業決策。
這裡用一個函式公式來表達DT(Data Technology)時代的熊彼得增長模式,即核心價值體現為y=f(x),y是結果,x是資料,f可以近似理解為是某種規律——但必須強調,數字對規律的理解與人類不同,人擅長抽象歸納簡單規律,而數字是用複雜理解複雜。以金融領域為例,當我們輸入大量消費者的行為資料(x)與資金交易的結果資料y,通過資料庫和AI PaaS平臺的加工,得到的是反欺詐風險評估的模型f,而f可以成為1乘100快速擴張複製的智慧應用,不需要再將資料搬來搬去,只要將f投入到各個“反欺詐應用場景”就能創造價值,f作為新的生產要素,從而在資訊產業變革中獲得高成長。
新的生產方式和生產資料的變化帶來了效率的迭代提升,機器的角色從嚴謹地執行人類的指令程式,轉變為基於目標進行迭代學習,將輸入和輸出過程中不確定的過程表達成一個軟體模型或智慧應用程式,這將大規模提高軟體的生產效率,對於資訊產業而言,這本身也是一次顛覆性的變革,DT時代科技企業的收入可以體現為平臺工具+資料科學服務的複合性收入。
人類與機器共生的未來
科創人:當機器開始生產知識,人與機器的關係是否將應該顛覆性的變革?在您看來,未來人和機器的關係是怎樣的?
雷濤:在過去,面對大量的資訊,人類一直認為自己是萬物之靈,“你把資訊交給我,我來控制然後進行判斷”,在這過程中誕生了無數的大師和專家。那麼經驗和專家給我們的是什麼呢?是一系列的報表,你能看到這個月的銷售數字、銷量等一系列的內容,然後依據這些數字做決策。
但當AI出現之後,人的最高價值不再是處理資訊,而是培育AI,我們在設計好一個精巧的演算法引擎之前,先把它扔到生產線上,然後再去規劃這個引擎本身的設計,像三千年前的羅馬競技場一樣,讓兩個深度學習的怪獸,自己彼此PK,得到一個最佳結果。
在這樣的模式下,人類和機器的角色被重新定義,AI的介入使得我們的角色提升了,我們不再是一個簡單的參與者,不再是在生產線上重複的工作者,而是更多地從事一些高精尖的工作。
數字世界≠物理世界
打破認知瓶頸,警惕數智“民科”
科創人:您多次提到了資料原生生產知識的方式呈現出黑盒狀態,無法為人所準確觀察、理解,所以我們不能簡單地將AI計算的“f”理解為規律?
雷濤:早期的AI也試圖想找到一些規律,比如我們在信用卡里普遍使用的評分體系,到底是三千塊錢額度還是三萬塊錢額度?但是我們越來越不再依賴於簡單地表達事物,而是依賴於複雜性,依賴於數字的表達方式。
AI還原了我們對整個世界複雜性的理解,當人類看到一棵樹,更習慣於進行抽象思維,不管它是什麼顏色的、有多少個枝杈等等,我們的第一反應:這是一棵樹;但當機器看到這棵樹時,會盡量捕捉到它的所有細節,這是機器的長處,它更容易表達複雜性。
必須要承認,這個世界上有很多問題,人類沒辦法抽象出簡單的規律,比如我們現在大量使用的視覺計算,怎麼才能讓圖片去認知這是一隻貓或者一隻狗呢?用人類的語言和思維去描述圖片資訊是很有限的,這些有限的元素無法還原複雜內容;同樣,我們怎樣利用Alpha Go把16萬棋手的大局觀、棋風都抽象描述出來?
人類的語言在“還原複雜性”這一項上,黔驢技窮,而深度學習無疑給了我們一個描述複雜世界的方法,用一套複雜的數學體系和分散式計算能力去應對,同時深度學習也給我們找到了一個認知地圖和拼接地圖的方法。
用複雜應對複雜,人類有了新的方法獲取更廣泛的認知。
科創人:那麼“不能理解數字世界的黑盒”是否將影響人們對這一方式的接納,進而影響這一生產力的普及?
雷濤:我確實有此擔憂。面對數字原生這場知識生產革命,最大的束縛就是,很多人習慣於用物理世界理解一切、定義一切,在我看來,這種認知會阻礙數字原生的普及與發展。
每一場知識革命,都伴隨著對“認知”的打破,人裝了翅膀是飛不了的,真正能讓飛機上天的是空氣動力;汽車出現的時候,人們還只是需要一匹更快的馬,馬力這個詞延續至今;古人捏土製陶時,肯定想不到如今光刻機在單晶矽片上灼刻積體電路……
新的知識革命,必然帶來新的認知體系,反過來說,錯誤的認知體系,必然拖累知識革命的腳步。
終
2000年前的秦人還是吃的和10萬年前古人一樣的穀物,但我們從火車到網路,所有的一切都在加速。在過去的兩個世紀,我們燃燒的有機物殘骸是經過億萬年轉化而形成的化石原料,這些燃燒已經對星球前第四季造成了巨大消耗,也深刻影響著這顆星球多樣性生命平衡演進發展的程序,有責任的領袖設定了碳中和目標,掌握冪律規律,學習用更多“瞬間”科技力量去消費越來越稀缺短暫的時間-空間。
——摘自《資料原生的時空觀》作者:雷濤