1. 程式人生 > >從金融領域,看看機器學習的應用場景

從金融領域,看看機器學習的應用場景

640?wx_fmt=png

在金融領域,機器學習可能會產生神奇的效果,儘管它本身並沒有什麼神奇之處(嗯,也許只是一點點)。然而,機器學習專案的成功更多依賴於構建高效的基礎結構、收集適當的資料集和應用正確的演算法。

機器學習正在對金融服務業產生重大影響。讓我們來看看為什麼金融公司會關心這項技術,以及使用人工智慧和機器學習可以實現什麼解決方案和如何應用這項技術。

定義

我們可以將機器學習(ML)看作是資料科學的一個子集,它使用統計模型洞悉內在規律並做出預測。下圖解釋了人工智慧、資料科學和機器學習的關係。為了簡單起見,我們在這篇文章中集中討論機器學習。

機器學習的神奇之處在於,它們無需明確地程式設計就能從經驗中學習。簡單地說就是,選擇模型並向它們提供資料,該模型能自動調整引數,以改善結果。

資料科學家用現有的資料集訓練模型,然後將訓練好的模型應用到現實生活中。

640?wx_fmt=png

模型在後臺執行,並基於以前的訓練自動提供結果。資料科學家會盡可能頻繁地對模型進行再培訓,以保持模型的最優。例如,我們的客戶Mercanto 每天都在重新訓練模型。

一般來說,提供的資料越多,結果越準確。巧合的是,龐大的資料集在金融服務行業非常普遍。有很多關於交易、客戶、賬單、轉賬的pb級資料。這非常適合機器學習。

隨著技術的發展和最佳演算法的開源,很難想象不使用機器學習金融服務的未來。

大多數金融服務公司還不能從這項技術中獲得真正的價值,原因如下:

  • 公司往往對機器學習及自身的價值抱有完全不切實際的期望。

  • 人工智慧和機器學習的研發成本很高。

  • DS/ML工程師的短缺是另一個主要問題。下圖顯示了對人工智慧和機器學習技能需求的爆炸式增長。

  • 在更新資料基礎設施方面,金融企業不夠靈活。

640?wx_fmt=png

隨後我們會討論如何克服這些問題。首先,讓我們看看為什麼金融服務公司不可忽視機器學習。

儘管存在挑戰,許多金融公司已經採用了這項技術。如下圖所示,金融服務業的高管們非常重視機器學習,他們這麼做有很多原因:

  • 自動化降低經營成本。

  • 更高效的生產力和更好的使用者體驗從而創收。

  • 更好的承若並提升安全性。

640?wx_fmt=jpeg

有許多開源的機器學習演算法和工具非常適合金融資料。此外,老牌金融服務公司擁有大量資金,他們有能力在計算硬體方面加大投入。

由於金融領域大量的歷史資料,機器學習可被用於增強金融生態系統的許多方面。

這就是為什麼這麼多金融公司都在大力投資機器學習研發。對於落後者來說,忽視AI和ML的代價是高昂的。

在金融中機器學習可以用在哪些場景?

讓我們來看看未來機器學習在金融領域的一些應用。

640?wx_fmt=png

過程自動化

過程自動化是機器學習在金融領域最常見的應用之一。該技術可以替代體力勞動,自動化重複任務,提高生產率。

因此,機器學習幫助公司優化成本,改善客戶體驗,擴大服務規模。以下是過程自動化在金融領域的應用例項:

  • 聊天機器人

  • 客服中心自動化

  • 文書工作自動化

  • 員工培訓遊戲化等等

以下是銀行業務流程自動化的一些例子:

摩根大通(JPMorgan Chase)推出了一個利用自然語言處理(一種機器學習技術)的智慧合同(COiN)平臺。該方案可處理法律檔案並從中提取重要資料。手工審查1.2萬份年度商業信貸協議通常需要大約36萬工時。然而,使用機器學習可以在幾個小時內瀏覽相同數量的合同。

BNY Mello將過程自動化整合到他們的銀行生態系統中。這項創新可每年節省30萬美元,並帶來了廣泛的操作改進。

富國銀行(Wells Fargo)通過Facebook Messenger平臺使用一個由人工智慧驅動的聊天機器人與使用者交流,並提供與密碼和賬戶相關的幫助。

Privatbank是一家烏克蘭銀行,在移動和網路平臺上使用聊天機器人助手。聊天機器人加快了一般客戶查詢的速度,並減少了人工助理的數量。

安全

隨著交易、使用者和第三方整合數量的增長,金融領域的安全威脅也在不斷增加。機器學習演算法在檢測欺詐方面也很出色。

例如,銀行可以使用該技術實時監控每個帳戶的數千個交易引數。該演算法分析持卡人的每一個行為並嘗試發現該使用者行為背後的目的。這種模型能夠精確地發現欺詐行為。

當系統識別到了可疑帳戶行為,它可以向用戶詢問額外的認證資訊來驗證該筆交易。如果有95%的可能性是欺詐的話,甚至可以完全阻止交易通過。機器學習演算法只需要幾秒鐘(甚至幾秒鐘)來驗證一個交易。這種速度有助於實時阻止欺詐行為的發生,而不只是在行為發生後的鑑定。

財務監控是金融中機器學習的另一個安全用例。資料科學家可以訓練該系統檢測大量微支付,並標記諸如smurfing的洗錢技術。

機器學習演算法也可以顯著提高網路安全性。資料科學家訓練一個系統來定位和隔離網路威脅,因為機器學習在分析數千個引數和實時方面的能力是有目共睹的。這項技術很有可能在不久的將來為最先進的網路安全網路提供動力。

Adyen, Payoneer, Paypal, Stripe,和Skrill 是一些著名的金融科技公司,它們在安全機器學習方面投入了大量資金。

640?wx_fmt=png

人工智慧技術在金融領域的應用現狀

橙色及淡橙色方塊表示已經應用相關技術或是在未來有相關計劃

承保和信用評分

機器學習演算法非常適合運用於金融和保險業中很常見的承保業務。

每個客戶檔案都有數百個資料條目,資料科學家對成千上萬的客戶檔案建立模型。 隨後,訓練有素的系統可以在現實環境中執行相同的承保和信用評分任務。這種評分系統可以提高相關從業人員工作的效率和精確度。

銀行和保險公司擁有大量消費者歷史資料,他們可以使用這些資料訓練機器學習的模型。或者,他們可以使用大型電信或公用事業公司生成的資料集。

例如,BBVA Bancomer   正與一個信用評分平臺Destacame合作。 該銀行旨在為拉丁美洲信用記錄不足的客戶提高獲得信貸的機會。 Destacame通過開放API訪問了公用事業公司的賬單支付資訊。通過對賬單支付行為進行分析,Destacame為客戶生成信用評分並將結果傳送給銀行。

演算法交易

機器學習有助於改善演算法交易中的交易決策 。 數學模型可以實時監控新聞訊息和交易結果,並檢測出可能導致股價波動的模式。 隨後,它可以根據自己的預測主動選擇出售,持有或購買股票。

機器學習演算法可以同時分析數千個數據源,遠超人類交易員的極限。

機器學習演算法可以幫助人類交易員獲得略高於市場平均水平的優勢。鑑於交易操作次數的頻繁,這種優勢通常會轉化為鉅額利潤。

機器人顧問

機器人顧問在金融領域非常普及。目前,機器學習在諮詢領域中主要有以下兩種應用:

投資組合管理。這是一種線上財富管理服務,它使用演算法和統計資料來分配、管理和優化客戶的資產。 使用者輸入他們目前的金融資產和目標,例如,在50歲時存夠一百萬美元。隨後機器人顧問將根據風險偏好和期望目標在投資機會中分配現有資產。

金融產品推薦。許多線上保險服務商使用機器人顧問向特定使用者推薦訂製化保險服務。 相較於個人理財顧問,客戶往往更偏好費用較低的機器人顧問,以及個性化和校準的推薦服務。

640?wx_fmt=png

如何將機器學習運用於金融?

儘管人工智慧和機器學習有很多優點 ,但即使是財力雄厚的公司,也很難從這項技術中獲取真正的價值。金融服務公司希望挖掘出機器學習的獨特價值,但對於資料科學的運作原理以及如何使用它,他們僅有一個模糊的概念。

他們一次次面臨相似的挑戰,比如缺乏合理的業績考核指標。這導致了不切實際的估算並耗盡了預算。 僅僅擁有合適的軟體基礎設施是不夠的(儘管這將是一個良好的開端)。 要想成功地將機器學習運用於金融服務,你需要清晰的願景,紮實的技術人才,以及提供有價值的機器學習開發專案的決心。

當你充分理解這項技術將如何幫助你達成目標時,你需要繼續在思維層面進行驗證。資料科學家的任務是對你的這個想法進行審查,幫助你制定可行的KPI並做出合理的估算。

值得注意的是,你需要確保所有相關資料都收集完畢。否則,您需要資料工程師來收集和清理這些資料。根據用途和業務狀況,金融公司可以採用不同的方法應用機器學習:

放棄機器學習,轉而專注於大資料工程

有時候金融公司在開發機器學習專案時想要實現的目標,只需要適當的資料工程就可以實現。資深資料科學家Max Nechepurenko ,在N-iX上評論:

“在開發資料科學的解決方案時,我建議使用奧卡姆剃刀原則,這意味著模型不應該過於複雜。 大多數以機器學習為目標的公司實際上只需要關注可靠的資料工程技術,關注將統計學方法應用於聚合資料以及資料視覺化。”

僅僅將統計模型應用於已經處理過的結構性資料就足以讓銀行擺脫其運營中的許多瓶頸和低效。

這些瓶頸包括什麼呢 ? 比如某個分行的排隊問題,一些可以避免的重複性任務,低效的人力資源工作,手機銀行APP的缺陷等等。

除此之外,任何資料科學專案中最重要的部分都是構建一個協調的平臺生態系統,從數百個資訊源(例如CRM,報告軟體,電子表格等)收集分散孤立的資料。

在應用任何演算法之前,你需要整理好資料的結構並對資料進行清理。只有這樣,才能進一步地從這些資料中挖掘出有價值的資訊。 實際上,機器學習專案中80%左右的時間都花在提取、轉換、載入和進一步清理資料上。

640?wx_fmt=png

資料工程中提取、轉換和載入資料的具體流程

使用第三方的機器學習解決方案

即使你的公司決定在即將開展的專案中使用機器學習,也不一定需要開發新的演算法和模型。

大多數機器學習專案需要處理的問題都已經被解決。谷歌,微軟,亞馬遜和IBM等科技巨頭將機器學習軟體作為一種服務出售。

這些開箱即用的解決方案已經經過訓練,可以解決很多種業務問題。 如果你的專案涉及相同的應用場景,你認為你的團隊可以超越這些有著龐大研發中心的技術巨頭們所開發的演算法嗎?

Google的多種即插即用的推薦系統解決方案就是一個很好的例子。該軟體適用於各種領域,你只需要檢查它們是否適合你的案例。

機器學習工程師可以構建專注於特定的資料和業務領域的系統。專業人員需要從不同的資訊源提取資料,並將這些資料進行處理以適合此係統,然後接收處理的結果並進行視覺化。

你需要在對第三方系統的控制力和解決方案的靈活性之間權衡取捨。 此外,機器學習演算法並不適合所有的業務場景。資深資料科學家Ihar Rubanau  在 N-iX評論:

具有普適性的機器學習演算法至今還未出現。資料科學家們需要在應用前根據各個領域不同商業案例的情況對演算法進行調整。

所以如果Google的某個現存解決方案能夠解決你所在領域的特定問題,你也許可以使用它。如果不能的話,就要著眼於定製化的開發與整合。

創新與整合

從零開始開發機器學習解決方案是最費時費錢又冒險的選擇之一。然而,在某些商業案例中,這可能是應用機器學習技術的唯一途徑。

機器學習的研發針對的是某一利基領域的特定需求,這需要深入的調研。如果沒有現成的針對特定問題而開發的解決方案,第三方機器學習軟體可能會產出不準確的結果。

640?wx_fmt=jpeg

從左到右:解決方案架構師、大資料架構師 、大資料工程師 、後端開發人員、前端開發人員、資料科學家、機器學習工程師、商業智慧專家。

至今,你仍然可能需要高度依賴於Google及其他開源的機器學習庫。當今的機器學習專案大多是將目前最先進的庫應用在某一特定領域和用例中。

在N-iX,我們認為成功的企業機器學習研發專案有如下七個共同特質:

  • 一個明確的目標。在收集資料之前,你至少需要對通過人工智慧和機器學習能取得的結果有大體認識。在專案初期,資料科學家會幫助把你的想法轉化成實際的KPI。

  • 穩健的機器學習解決方案架構設計。你需要一個經驗豐富的軟體架構師來執行這一任務。

  • (基於Apache Hadoop或者Spark的)適宜的大資料工程生態系統是必須的。它可以收集,整合,儲存,處理大量來源於金融服務公司的分散資料。大資料架構師和大資料工程師負責搭建這一生態系統。

  • 在新建的生態系統中執行ETL流程(提取,轉換,載入)。大資料架構師和機器學習工程師負責這一環節。

  • 最終資料準備。除了資料轉換和技術清理之外,資料科學家可能需要進一步提煉資料,使其適用於特定的商業案例。

  • 應用恰當的演算法建立模型,調整模型,並用新資料訓練模型。資料科學家和機器學習工程師執行這些任務。

  • 清晰的洞察視覺化。商業智慧專家負責這一部分。除此之外,你可能需要前端開發人員來設計易用的介面面板。

  • 小的專案可能需要更少的努力和更小的團隊。比如對於一些小資料集的研發專案來說,他們可能並不需要經驗豐富的大資料工程師。在某些其他情況下,可能也並不需要複雜的控制面板和資料視覺化。

重點回顧

金融機構經常使用機器學習來實現程序自動化與安全化。

在收集資料之前,你需要對通過資料科學獲得的結果有清晰預判。需要在專案開始之前設定可行的KPI,並進行切實的估計。

很多金融服務公司對資料工程,統計和資料視覺化的需求超過資料科學和機器學習。

訓練資料集越大越乾淨,機器學習解決方案的結果就越準確。

你可以一邊繼續使用現有的機器學習演算法,一邊儘可能多訓練你的模型。

並不存在廣泛適用於不同商業案例的機器學習方案。

有機器學習功能的金融軟體開發成本很高。

Google這樣的科技巨頭創造了機器學習解決方案。如果你的專案涉及這些用例的話,儘量用現成的,因為自己的演算法優於谷歌,亞馬遜或者IBM的可能性很低,

金融領域的機器學習和其他領域有何區別?

在我看來,主要的區別源於資料的不同。在金融領域,資料的噪聲(非常)大,而且通常是不穩定的。“訊號”不能用任何特定方法與噪聲剝離,這是原則性問題。舉例來說,這和影象處理就很不同,影象處理至少原則上可以控制噪聲等級

另外,影象處理也不存在不穩定資料這一概念。包括非概率模型在內的一些機器學習模型,因為噪聲的顯著影響,在金融領域難以發揮作用。

另一區別在於資料量。金融領域很多有趣的問題是關於中小型資料集的問題,這使得一些有很大資料需求的方法難以應用,比如深度學習。因此,金融上(根據使用方法)通過選擇正則化,貝葉斯先驗或者諸如對稱性分析之類的其他一般原則來實施一些先驗理論是很有必要的。

還有一個重要的區別是,金融上並沒有很好地定義“真實”狀態空間。有一些被稱作黑天鵝的事件——金融模型之外的事物,例如政治風險,會對證券價格產生重大影響。

不確定性和概率(風險)有所不同。大部分機器學習模型(以及大部分經典金融模型)在定義良好的狀態空間下應用概率系統——他們不承認黑天鵝的存在。他們是風險模型,但並非不確定模型。

大資料文摘出品

編譯:大芏、彭耀輝、茶西、湯圓、夏雅薇

相關報道:

https://www.n-ix.com/machine-learning-in-finance-why-what-how/ 

https://www.quora.com/How-is-ML-in-finance-different-from-ML-in-other-fields

∞∞∞

640?wx_fmt=png

公眾號回覆“IT派”

邀你加入IT派 { 技術青年圈}