1. 程式人生 > >AI的發展:在金融行業的應用與機遇(附視訊&PPT)

AI的發展:在金融行業的應用與機遇(附視訊&PPT)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

人工智慧技術目前得到了全球範圍內前所未有的矚目,已在多個行業內落地,幫助企業構建了在大資料和人工智慧時代下的核心競爭力與商業壁壘。那在新的機器革命時代,我們如何應對機遇和挑戰?

本期我們很榮幸邀請到清華校友、清華資料創新基地首席金融大資料專家袁徵女士,為大家展開題為《人工智慧在金融領域的發展和展望》的分享。講座通過對最新的人工智慧發展動態,豐富的音訊視訊展示和企業實踐案例解讀,希望幫助大家瞭解人工智慧給傳統行業帶來的新機遇。

 講座完整視訊


在公眾號對話方塊回覆關鍵詞“AI金融”,下載完整版講座PPT。

640?wx_fmt=jpeg

清華資料創新基地首席金融大資料專家袁徵

以下是部分講座內容整理:

今天和大家分享三個部分,一是另類視角的人工智慧起源和發展歷史

二是當前人工智慧發展的條件、爆點和一些工業界的用例;三是其在金融領域的應用現狀。這個課件來自於我和我的清華同學俞凱(上海交通大學人工智慧方向教授、博士生導師)的合作。

2015年,國家發改委、科技部、工信部、中央網信辦制定《“網際網路+”人工智慧三年行動實施方案》,計劃到2018年,基本建立人工智慧的產業、服務和標準化體系,實現核心技術突破,培育若干全球領先的人工智慧骨幹企業,形成千億級的人工智慧市場應用規模。結果如何,我們仍拭目以待。

640?wx_fmt=jpeg

涉及人工智慧的歷史,圖靈是其中最早的開創性人物。接下來將從人物的八卦中覆盤一下當時的歷史脈絡。圖靈,生於1912年,他相當聰明,用自己的人腦實現了後來用電腦才能做的事。他小時候曾經在給母親的一封信裡寫到,“我總想從最普通的物質創造出新的物質,並且是以最小的能量”

。在很年輕的時候他就預測到計算機的產生,設計了一種名為“imitationgame”的遊戲,其測試標準就跟計算機和人工智慧最早的一些idea一致,所以特別聰明的人能夠在相當早的時候看到未來幾十年甚至上百年的社會發展脈絡。

1936年,他的論文《論可計算數及其在判定問題上的應用》,開創了計算機時代。他不僅提出了可進行數字計算的電子計算機的最早理論設計,而且預言大約50年後將會出現會思維的機器,因此他被公認為計算機早期歷史上最偉大的理論家之一。正是在這個時期他構思出所謂的理想計算機,即圖靈機的原始模式。機器本身的智慧難以準確地定義,怎麼樣去判斷機器是智慧的?首先要認為人類是智慧的,機器如果像人類的行為模式差不多,就認為這個機器是智慧的。但這個奇才與當時主流社會格格不入,年僅42歲就自殺結束了自己的生命,沒能親眼看到人工智慧的誕生。

640?wx_fmt=jpeg

圖靈

人工智慧涉及的內容有視覺的,聽覺的,還有觸覺等各個維度的,其中最深的是像人一樣思考,是最難的,也是研究最多的。

640?wx_fmt=jpeg

涉及人工智慧的產生,它的代表人物為人工智慧之父John McCarchy,他於1955年到1956年發表了相關論文。他在DartmouthCollege組織了名為“Dartmouth Conference”的會議,參加會議的幾個人就被大家公認為人工智慧之父。他們最早提出來人工智慧這個idea實際上有七個維度,到今天,這些維度幾乎是和我們所看到的已經發展的樣子,或者和未來想要發展的方向完全一致。這也是為什麼偉人之所以為偉人。

第一個是人工智慧,智慧就是所謂的腦,為什麼大家管計算機叫電腦,就是它在一定程度上相當於人腦。

第二個是Programming a computer to use general language,在我小的時候,我的父親是航天部的水下彈道設計工程師,他們已經可以用電腦做一些設計工作,感覺就像莫爾斯電碼似的,機器打出來好多點,然後人工翻譯出這些點的含義;在我們上學的時候,最早也學編譯語言,都是相對比較原始的計算機語言;當時的人就篤信我們未來會慢慢的讓計算機能夠理解普通人說話的語言,隨後就有了C++、Java;等我讀研究生比較普遍的是Matlab、S-Plus、Python等等,這些languages叫做Scriptlanguage,就像寫稿子一樣,我們寫出來人腦想的語言(很接近人和人交流的語言了),計算機就可以去執行;再往後發展,最普遍的日常生活的對話,計算機也可以聽懂了,這就是語音識別、人機互動。

第三個是Arranging hypothetical neurons on a manner so that they can formconcepts,即早期的神經網路。現在的深度學習是基於深度的神經網路,那神經網路是怎麼來的呢?電腦的神經網路是受人的神經網路啟發而來的,既然人能夠有這麼複雜的語言、思考等各個方面的行為,電腦是不是也能夠通過這樣一種模式來實現它最終的功能?這就有了最早的神經網路的雛形。

第四個是A way to determine and measure problem complexity,要先識別問題,尤其是特別複雜的問題,才有可能去解決它。

第五個是Self-improvement。怎麼實現呢?self learning。自己學習,自己挑戰自己。這就是deep learning的核心驅動。

第六個是具備抽象的能力。從一些idea把它抽象出來,抽象成電腦可以理解的東西。

第七個是Randomness和creativity,人現在這個階段的creativity創造力還是很難被機器獲取的。如果有一天電腦也有了隨機性和創造力,那真的就和人腦非常接近了。

說到深度學習,就要講第三個人物的八卦:Geoffrey Hinton,他被公認是深度學習之父。人工智慧裡面核心的部分,或者說現在應用的最廣泛和深入的部分就是深度學習的演算法。在70年代左右,Hinton於卡內基梅隴大學開始執著研究深度的神經網路、深度學習。他當時的導師一開始還支援他,後來因為覺得他這個想法太瘋狂,他的導師就不支援,不給經費,他之後去到加拿大多倫多大學,繼續執迷於深度神經網路的研究。終於有一天他做出了“驚世駭俗”的成果,可惜當年反對他的導師已經去世了。最早期看到的DeepBlue,近期出現的AlphaGo涉及到的深度學習的演算法,實際上都有他非常大的功勞,而他現在擔任Google Brain的首席科學家,依然繼續做著這個領域更加深入的研究和探索。   

以下圖展現了人工智慧發展的主要脈絡。大家普遍認為在人工智慧發展的道路上,巔峰與谷底並存。

640?wx_fmt=jpeg

為什麼在很早的時候人工智慧的某些方面就比較成熟了,卻到前幾年才能有更加突破性的發展呢?原因就是有一些條件不夠成熟,或者是歷史的機緣未到,或者沒有特別厲害的人物出現。就像我們經常說的“木桶原理”,水總是會從最短的那根木板處流出來,不能盛更多。

那為什麼有些時候發展不下去了?其實需要有四個大方面的基礎技術支撐,使得人工智慧有更加深入和長足的發展。

640?wx_fmt=jpeg

第一個是資料的儲存分析,即大資料。從05年到10年到2015年,大資料在呈級數增長,目前全球90%以上的資料是最近幾年才產生的,但是不是真的是最近幾年才產生的?不是,只不過之前我們沒有把它給記錄下來。移動網際網路高速發展的這段時間,網際網路上的資料每年增長50%,據IDC2012年釋出的研究報告,接下來的八年中我們所產生的資料量將超過40ZB,1ZB相當於2的30次方TB,相當於地球上每個人產生5200GB的資料。

第二個是硬體的發展。與串型架構的CPU不同,後來發展的GPU有巨大的飛躍,從原來的靜態的快取發展到用動態的快取,導致它會產生一個很大的計算速度上和儲存能力上的差別。舉一個例子,英偉達和寒武紀兩家公司他們在短短三年內使得訓練速度,神經網路的速度提升了50倍。寒武紀研究小組的結果顯示,GPU能夠提供平均58.82倍於CPU的速度,這兩年又發展出了TPU,即Tensor Processing Unit。TPU產生以後,支援深度神經網路有了更大發展的前提。

640?wx_fmt=jpeg

第三個是雲端計算對計算資源的充分利用,使得計算成本和儲存成本在過去二十年內逐漸下降。根據KPCD的統計報告顯示,年均下降幅度高達33%,阿里雲降價就是一個佐證,在2014年的時候阿里雲的價格連續四次下調。由於這樣一些廉價的算力提升,人工智慧就得以在相對廉價的基礎上發展。

第四個是深度學習。舉一個圖象識別的小例子,從最早的象素的特徵,一點點上升到邊緣,然後把它抽象成眼睛、嘴、鼻子等器官,這些器官長成不同的樣子,它就是不同的動物,或者是不同的人。在現在人臉識別的很多專案中,最底層的框架實際上就是這樣一步一步來做的。

640?wx_fmt=jpeg

深度學習怎麼做呢?底層的象素可以想象為10億甚至幾十億或者上百億的數量級,實際上就是一張臉的資料。深度學習,大資料把它喂進去,它就會慢慢自己學習。這個邊緣是什麼樣的,就會是什麼樣的輸出,它可能是什麼樣的動物等等,這樣一步一步去做人腦模擬。

640?wx_fmt=jpeg

在目前的應用中,大家可以看到人工智慧在語音、影象、觸感或手勢、合成、運動、語言理解或生成、翻譯、博弈、問答等方面已經有很好的發展,神奇得令人瞠目結舌。

人工智慧發展史上有兩件特別重要的事:一個是國際象棋手深藍的事一個是圍棋手AlphaGo的事。1997年,IBM做電腦的棋手深藍“DeepBlue”,擊敗了當時的世界冠軍卡斯特羅夫。1996年卡斯特羅夫還打敗了深藍,但是經過演算法不斷的進化,僅僅一年時間它就擊敗了卡斯特羅夫,當時用的是C語言。演算法是最重要的,它的演算法根本思路是Exhaustive,即窮舉,就是要把所有的可能性都列舉出來。從97年之後為什麼經過了二十年才會有新的發展,主要就是因為當時採用窮舉法的侷限。  

當我們當時還在用深藍去窮舉的時候,我們發現我們再怎麼去窮舉,再大的計算機能力可能都沒有辦法把圍棋的問題解決了,然後就需要一個全新的,完全不同的理論框架來解決這個問題。是什麼呢?深度學習,或者說自主學習演算法。它就會摒棄掉很多的可能性,可能是99.99%的可能性,但是那些可能性都是幾乎不可能發生的,這樣就可以實現它能贏,但是它怎麼摒棄呢?它通過機器一開始跟人或者跟其他的機器去對弈,來讓機器自己學習,做自主選擇,然後慢慢去學會這些東西。

AlphaGo最早的叫AlphaGoMaster在2015年以5:0擊敗了職業圍棋二段選手樊麾,16年3月4:1擊敗了李世石九段、17年以2:1擊敗了當時世界排名第一的柯傑。後來又出現了更神奇AlphaGoZero,AlphaGo Zero變成了AlphaGo Master的進化版。經過三天的訓練,不是用人的棋譜,而是自己和自己對陣,三天訓練之後它以100:0的成績擊敗了AlphaGoMaster。

640?wx_fmt=jpeg

那麼問題來了, AlphaGo Zero有沒有可能輸給人類呢?AlphaGo Master都打敗了人類,AlphaGo Zero打敗了Master,那我們的邏輯是AlphaGoZero一定應該能夠打敗人類。但是這個邏輯的前提條件是什麼?所有其他條件因素的背景全都一樣。理論上講AlphaGo Zero是有可能反而輸給人類的,尤其是它也許恰恰會偶爾輸給一個半調子的棋手。為什麼?因為這個半調子的棋手有可能特別不按常理出牌,突破了AlphaGoZero之前學到的所有套路。因為它不是窮舉的,所以從統計學上來講,這種可能性一定存在,雖然很小很小。所以我想和大家說的是,要想在一些技術或者領域有創新的話,一定要突破我們的邊框,突破傳統的邏輯思維,有一些很開放的想法,不要怕腦洞太大,不要怕別人說你異想天開,一定要敢想。

小結一下,人工智慧發展從計算智慧(儲存、計算)到認知智慧(聽、說、看觸、聞,理解、思考、反饋、適應等),再到抽象知識處理智慧(分析、推理、演義、歸納)。

640?wx_fmt=jpeg

這幾年的移動網際網路和網際網路的發展的迅速發展導致的智慧手機和智慧移動裝置的發展也同樣迅猛,為人工智慧的發展提供了新的契機。

物聯網為萬物溝通提供了平臺,涵蓋了智慧醫療、智慧電網、智慧教育多個熱點行業的應用,還與雲端計算、大資料、移動網際網路等息息相關,擁有廣泛的市場前景。物聯網被認為是繼房地產、網際網路之後下一個經濟增長點。我們生活周邊同樣有諸多應用,如智慧傢俱、車載裝置、穿戴式裝置,機器人也是一個比較典型的應用形態。

這裡稍微提及Gartner技術發展曲線,如下圖。在研究新技術的時候,這個曲線是非常重要的一個參考。Gartner網站每年都會去更新曲線,它的發展有一個起伏的過程,尤其在今後發展再更新更細的新技術的時候,都會遇到瓶頸,這些瓶頸都是類似的,所以這是為什麼它會有特別大的凹陷,由於它是一個系統工程,在這個系統工程上有些地方是短板,它就在一個時期內很難得到長足的或者是迅速的發展。

640?wx_fmt=jpeg

接下來我們花一點時間稍微深入地講一下人機互動。

人們把人工智慧比喻成電能,有發電的,有用電的,也有輸電環節。人機互動就像是輸電環節。人機互動的歷史變遷從80年代、90年代開始。從組織到90年代的瀏覽,00年代的搜尋,到10年代的處理,網際網路時代的需求正在向處理任務變遷。人機互動是人工智慧的典型應用。

640?wx_fmt=jpeg

人機互動的本質屬性-狀態模型和決策模型。使用者想幹什麼,曾經表達過什麼,機器做了什麼,是它的狀態模型。而決策模型指機器應該回答什麼。

還有其他的未來人工智慧的方向,比如說情感。現在的機器人是沒有感情的,可能慢慢的有些機器人比如在語音互動的過程中就可以把人們的語氣、情緒解析出來,由此賦予了機器情感。

接下來講一些AI在金融領域的應用案例。這個得益於幾個會員單位如元素徵信、法海風控、百融金服、銀聯智策等的提供,具體的底層技術不便於太多公開,以下列舉幾例。

我們的會員單位擁有各大部委,各個企業還有個人的資料,根據這些做了企業的風險關聯分析,企業族群探索,對於分析一些大型的企業十分有益。

640?wx_fmt=jpeg

第二個應用案例是基於自然語言處理的輿情分析,用於對公業務的貸前貸中風險預警。自然語言處理是人工智慧領域比較明確的分支。這個是來自於另外一個會員單位,他是專門做法院的文案分析,判決書非常冗長,他用自然語言處理,把它進行解析,包括一些法律相關的新聞。基於這樣一些演算法做的風險預警管理系統,涉及到反欺詐,輿情分析。

640?wx_fmt=jpeg

第三個是基於機器學習的企業畫像,用於對公業務精準營銷和風險監測。這個是各個維度的,工商資料、稅務資料、海關資料,進出口,各種質監資料,包括公司的個人資料,一起來分析整個企業的全景畫像。結果可以用於風險監測和精準營銷。

640?wx_fmt=jpeg

此外,人工智慧也在量化投資和智慧投顧等方面有著全新的嘗試。

現場提問精選:

問:在現階段,每個人買金融產品的時候大部分是隨機的。您剛剛提到智慧投顧在銀行裡的推廣,我們作為企業方推薦一個產品給小白使用者,那麼銀行應該通過這個給使用者最大收益,還是通過這個把銀行的贏利作為出發點?

袁徵:這是一個很好又很現實的問題。我到底是為了我的終端客戶來服務,還是為了自身的贏利?這是大家都感覺非常矛盾的一件事,一方面銀行都想賣自己的產品我在美國的時候先接觸資產配置,那個時候做財富管理的人都是獨立機構,因為他們不能代表任何一個機構去賣產品,不然就會讓人覺得不是對我個體的優化,而是對你公司的優化。我們現在想要讓廣大客戶去接受,就是希望能夠說服銀行在兩個利益上有一定的平衡,一方面我們會選擇全市場可以投資的東西,放到庫裡面另外一方面我們在比較類似的產品上,對銀行自身的產品有一定的推薦,希望做成這樣一種配置,能夠最大化滿足雙方共同的利益,儘量做到能夠在不影響個體投資人利益的情況下去賣銀行的產品。是否能做到,這就是個體差異了,首先是不是願意去做,還是動力全都來自於為銀行購買產品,相信大家慢慢都會有感覺他這個產品是在專門推銷理財和基金,還是在為我們終端客戶提供更多的服務。

剛才提到了理想的配置,它其實有很多種,在前面我們需要做個性化的客戶畫像,包括風險偏好、資產水平以及各個維度的資訊。你的配置模型可能跟我的模型跑出來的結果不一樣,因為我們倆的風險偏好和其他的引數不一樣,所以應該是根據每個人的不同而有一定的私人定製。

在公眾號對話方塊回覆關鍵詞“AI金融”,下載完整版講座PPT。

“應用·創新”系列講座

清華-青島資料科學研究院“應用·創新”系列講座,分享大資料新應用與創新性商業模式;旨在介紹大資料在各行業的最新應用,激發校內利用大資料機遇進行創新的熱情。更多精彩乾貨及線下活動,敬請關注THU資料派(ID:datapi)及姐妹號資料派THU(ID:DatapiTHU)。     

整理:王志蒙

校對:龔力

為保證發文質量、樹立口碑,資料派現設立“錯別字基金”,鼓勵讀者積極糾錯

若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後臺反饋,經小編確認後,資料派將向檢舉讀者發8.8元紅包

同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。

感謝一直以來您的關注和支援,希望您能夠監督資料派產出更加高質的內容。

640?wx_fmt=png

640?wx_fmt=jpeg