豬哥學習群直播第一期:人工智慧在銀行電信企業中的應用
一年前豬哥在建學習群的時候就說過要邀請企業大佬來群直播,中間因為很多事情給耽擱了,但是一直記在心裡,昨天終於完成第一期直播,下面的內容是整理後的文章。
關於直播使用的微信機器人專案豬哥後面也會單獨出一個教程寫一下,並給出原始碼供大家學習和使用!
本次直播精華豬哥都整理在一份XMind檔案中,文末會給出連結!
一、直播流程
這是咱們群的第一期直播,在直播完成後會有一個關於直播質量的問卷調查,希望大家直播完填寫一下,一起努力漸漸提高我們的群直播質量!
下圖是本次圖文直播的流程,給大家40秒時間看一下。
二、主講人介紹
主講人:楊美紅,工作十年,主要從事資料分析挖掘和人工智慧方向,以下為詳細工作履歷:
- 2009年開始工作,做運營商營收軟體研發。
- 2011年開始到國家質檢總局做進出口資料收集平臺化,對資料進行挖掘分析和情報自動化彙總處理。
- 2015年加入亞信和品友聯合控股的運營商大資料團隊,主要做資料探勘和廣告資料投放調優。
- 2018年加入建行金融科技公司北京事業群,做人工智慧平臺化。
豬哥為什麼會邀請楊美紅作為咱們群的第一期主講人,幾個月前在一個號主群看到他發的一篇文章:人工智慧的方向思考,一般寫這種文章都需要實際的人工智慧工作經歷並且有很寬的領域知識才行,所以豬哥就想邀請他來給大家做一期直播。
三、銀行人工智慧分類
目前銀行認為的人工智慧通常分為:資料智慧、感知智慧、認知智慧。
1.認知智慧
其中認知智慧分為:自然語言處理、知識圖譜。
- 自然語言處理:語義理解、實體識別、情感分類、語法分析、詞法分析、規則模型
- 知識圖譜:資訊抽取、知識推理、知識表示、知識構建、圖搜尋、知識圖譜
2.感知智慧
感知智慧分為 語音識別、影象識別、視訊識別、生物特徵識別、機器人學、VR。
- 語音識別:語音輸入、聲紋識別、人機互動、降噪
- 影象識別:二維碼、ORC、影象切割、影象搜尋
- 視訊識別:物體識別、肢體識別、三維成像、場景識別
- 生物特徵識別:人臉、指紋、虹膜、指靜脈
- 機器人學:感測器、計算機硬體、強化學習、過程控制
- VR :虛擬現實、增強現實
3.資料智慧
資料智慧包含:大資料處理與分析、機器學習演算法、深度學習演算法。
- 大資料處理與分析:資料採集、資料儲存、資料計算、資料分析、資料服務、資料管理
- 機器學習演算法:迴歸、決策樹、SVM、貝葉斯、時間序列、聚類演算法
- 深度學習演算法:CNN、RNN
四、應用在哪些方面
企業中用到的統計學習、資料探勘、機器學習。
統計學習目前來說,仍然是主流的,簡單易用,效果直接粗暴。
同時企業因為和個人應用的頻度、廣度都有差異,所以企業會平臺化,這樣對開發的難度、維護難度、裝置資源利用率都有較好的提升。(比如開發模板、參考模型、參考演算法 ,這些都整合後,比個人的開發要容易)
目前本人瞭解到的銀行類和電信有:
- 銀行類:獲客營銷、合規風控、產品服務、運維經營、住房租賃、普惠金融、智慧城市、政務服務 …智慧反欺詐…智慧客服
- 電信類:網際網路廣告推薦、電商類反作弊、反薅羊毛、人群流量監控、區域擁堵預測、交通調控。
資料探勘:電信運營商、程式化廣告, 目前主流技術仍然是spark+hadoop+yarn模式
機器學習:尤其是結構化資料的,基本上都是hadoop+spark
五、用到了哪些技術
可以把使用到的技術分成四大類:
- 主流的計算框架:SparkMLlib、TensorFlow、Caffe、pySpark、pyTorch等
- 軟體:ApacheTomcat 、python、 docker、springCloud、kubernetes、mysql、redis
- 輔助軟體:jenkins、git、gerrit
- 資料整合:Hadoop、Kylin
這些技術不是孤立的,好多都是多個互相協作完成產品功能。如政務服務:要求有市民提交影象的識別、提交文字的情感和反恐等識別,提交影象又可能是丟了東西,也可能是小孩走失,處理優先順序是不一樣的。 如A計算框架可能對動物識別比較好,B計算框架可能對靜物識別好,C框架可能對人臉識別比較好,這時候就可能需要三個框架結合,採取合理的順序進行銜接,才能讓政務的處理看起來更合理,更智慧。
六、具體的案例
因為本人主要從事電信和銀行業相關,所以具體的案例就從這兩個行業講講吧!
1.電信業人工智慧
目前落地的經歷過的有 廣告推薦 、電商類反作弊、反薅羊毛、人群流量監控(地理位置)、犯罪追蹤(通過地理位置時序變遷、上網記錄、聯絡人知識圖譜 等手段,能夠快速的篩選出犯罪嫌疑人,重點監控)。
電信運營商資料和阿里、騰訊等資料的異同點:
- 同:均可以對一個人的長久的、持續的資料進行處理。
- 異:阿里的資料偏向於購物、目前多了釘釘,有職場社交;騰訊的偏社交、遊戲、京東購物;電信運營商的2者兼有,但是顆粒度不夠細,三者各有優缺點。
2.銀行業人工智慧
首先說,在大多數公司,所謂的演算法,是通過程式體現的,這最基本的就要求團隊有三類人:
- 有需要了解的業務,業務人員對需求的描述;
- 建模人員對演算法和模型使用的規劃;
- 開發人員進行開發、對反饋進行分析有調優。
國內銀行業的性質,決定了它對人工智慧的應用、實現主要還是體現在銀行相關、少數是政府類專案相關。跨界的比較少。
- 政務服務:採用tensorflow、caffe、 keras 做 圖片識別和處理方向的服務,語言情感的判斷、涉黃涉恐的判斷。
- 反欺詐: 對信用卡的開卡、各種銀行卡的盜刷行為進行監控。
- 普惠金融:根據人群資料的劃分,進行貸款額度管理與控制。
- 運維監控:銀行業特殊的是監控方面,和安防比較像,視訊監控(生產機房監控、資料中心監控)、進出記錄監控(如明顯異常出入機房)、操作記錄監控(如 某個賬號大量的、突發的不合理操作進行預警)。
七、建議掌握的技術
如果你對人工智慧確實感興趣,那個人給你些實際的建議,重點分為2個部分:大資料和人工智慧。
1.大資料
大資料方面做好工作的要求:
- 對sql的理解。
- 能夠對產品需求有一定的熟悉,通過多個途徑、手段設計實現方式。
- 對演算法有一定了解。(如統計類的貝葉斯之類,是做什麼的,大概在什麼場景,廣告類的lookalike 大體是怎麼做到的)對其他大廠要求的演算法,leedcode可以刷到。
2.人工智慧
精通一個 、基礎紮實、適應快,都可以作為自己的出發點,團隊裡肯定是演算法的最重要,最好知曉一些,其他方向也需要了解,畢竟只有演算法的話,算是有了新增劑,做成什麼樣的食品還得靠全體努力。
銀行和電信業都是對高新技術不算太敏感的行業,所以個人說的可能也是比較陳舊,希望大家理解,希望能夠拋轉引玉,對大家有幫助,謝謝。
八、問題解答
在主講人開始之前,豬哥在朋友圈徵集了一些問題,大佬都一一為大家耐心解答。
豬哥整理了一下,將問題歸為三類:技術類、職業類、個人類
1.技術類
問:深度學習優化調參
答:目前來說,我們這邊的同事也主要是憑感覺和常識:大概正確率要到多少,比較流行的是訓練多少輪。比如60輪。
問:CNN
答:抱歉,這個我接觸的也不多,建議網上搜索學習。
問:影象和模式識別
答:目前主流的框架有TensorFlow、Caffe、包裝過的Keras,都可以根據官方教程學入門的。深入的話,涉及演算法層面的有能力修改的人還是比較少,主要還是樣本和調參要玩的好一些,容易工程實現。
問:影象多示例學習
答:可以對標註資料進行部分改變,或者標註後的分類進行修改,然後重新訓練或者累積訓練。或者採用不同的演算法框架,新增多個判斷邏輯,進行區分。比如第一部分辨動物和植物,第二步分辨 人和其他動物。
問:座標和編碼規則,在分子結構的數學表示上給建議,可以包含更多的資訊
答:抱歉,這個方向我沒涉及過,這塊我不能給出建議
問:GBDT的形狀
答:交個底,我對演算法的研究基本上是0,只停留在知曉的水平。 gbdt 目前主流的是殘差收斂、梯度下降。 都是迭代。形狀這塊不懂。 樣本和特徵選擇,根據經驗來說,儘量選擇比較均衡的樣本,這樣訓練的結果效果好,也容易解釋。
問:多少樣本才能使用統計學習
答:這個沒有特別要求,幾百個的我都見過,而且貌似結果還不錯,幾十億的也有,主要還是看你的目標和資料基礎,如果只有幾千幾百條,那就只能湊合用,資料多了再改進。
問:計算機視覺的裝置是不是特別貴
答:有特別貴的,也有便宜的,如果你是自己學習用,不建議自己急匆匆的買,可以在百度、阿里的雲平臺上租用,自己買的話,建議買2-4千的顯示卡就行,目前主流的是Nvidia卡,安裝cuda之類軟體,能夠對Tensorflow之類軟體進行支援就好
問:軟體
答:開源的練手就可以,國內的幾大廠,都有自己的一套,但是基本都基於開源。
2.職業類
問:爬蟲方向
答:往NLP和資料智慧方向結合試試呢,爬蟲的結果處理,如果添加了NLP方向,還是有很多需求的。
問:資料分析前景
答:廣闊,但是錢方面千差萬別,就像產品經理一樣,以後是常備,但是薪資水平能差幾條街
問:人工智慧
答:如果你目前是應屆生,還是建議讀研。或者說其他專業的應屆生,都建議讀研,這幾年的學位要求一直在提高,本科生在很多方向是吃虧的,2年半的時間換來後續可能10年的回報,值得的。NLP本科目前來說,比較吃虧,如果條件許可,還是儘量讀個研究生。
問:學習人工智慧需要對相應的數學有深入的研究嗎?還是說了解數學思想就行了?
答:如果你能力可以,儘量學的深入一些,半桶水和高手還是不一樣的。
問:深入資料探勘
答:演算法方向,建議多看國際上最新的論文和玩法。業務上,可以擴充套件廣度和深度,如多參加DataFun社群組織的交流,看看大家都是怎麼玩,有想法了及時試試。(我不是給DataFun做廣告哈,他們不認識我的)
3.個人類
問:大數、線性代數、概率論
答:能學的好的話,為什麼不呢?
問:沒讀過大學來學ai會不會費勁
答:看工作性質吧,如果是深入研究的,數學功底差的話,確實會費勁,論文和數學公式看不懂。如果調參,不一定費勁。
問:學習演算法
答:看你自己的興趣,只要喜歡,怎麼都可以。
問:學習路線
答:因人而異吧,個人覺得,發揮你現有的長處,先進入這個行業,然後再擴充套件 比較靠譜。
問:系統性的自學
答:目前來說,建議先學下吳恩達視訊,有一定了解後,自己再擴充套件。看看tensorflow之類框架的官方介紹,再搜搜學習筆記,大家目前來說,大牛少,都是探索。入行之後,慢慢的接觸,就能碰到大牛了。
問:程式設計師進階,架構師 :
答:個人覺得路線大同小異:首先,會寫區域性程式碼,寫的乾淨漂亮,邏輯清晰。 邏輯清晰這個很重要,因為你走到架構或者leader崗,需要對整體邏輯有清醒的認識,不然分配工作和架構設計,都會有不夠健壯的問題。有點變動就可能改架構,太要命。
其次,多觀察你身邊的技術大拿,或者說架構師是怎麼做的,他的成功和失敗的點,自己做的話,怎麼繼承和避免。同時注意你的leader是怎麼做的,包括工作的拆分,人員的進度監控,出問題後的處理。不要自己埋頭於程式碼,也不要覺得領導都是豬。他山之石可以攻玉,如果自己沒經驗,就學別人的經驗,這是最簡單有效的辦法。
九、直播反饋
直播結束後豬哥收集了一些同學的反饋和建議
豬哥總結下同學們的反饋意見:
- 內容文字過多,建議增加圖片和語音,有條件的情況可以上視訊
- 最好能有一個詳細的實際案例
- 缺少互動
- 直播中老有人簽到打斷,建議提前簽到
- 內容最好能深入淺出
關於下次直播的主題根據大家投票結果是:資料分析,所以就定為資料分析吧,資料分析的主講人豬哥心裡早已有了人選,是一位非常牛逼的大佬,希望能邀請到他!
最後豬哥也將這次直播的精華內容整理在一個XMind檔案中(連結:https://pan.baidu.com/s/1KR99u1hvmgBIQIwwtcBmEA 密碼:3yxw),作為群福利提前發給大家,需要大家自行去下載XMind軟體!
相關推薦
豬哥學習群直播第一期:人工智慧在銀行電信企業中的應用
一年前豬哥在建學習群的時候就說過要邀請企業大佬來群直播,中間因為很多事情給耽擱了,但是一直記在心裡,昨天終於完成第一期直播,下面的內容是整理後的文章。 關於直播使用的微信機器人專案豬哥後面也會單獨出一個教程寫一下,並給出原始碼供大家學習和使用! 本次直播精華豬哥都整理在一份XMind檔案中,文末會給出連結!
【轉載】NIPS 2017 線上分享第一期:新型強化學習演算法 ACKTR
上週我們釋出了《攻略 | 雖然票早已被搶光,你可以從機器之心關注 NIPS 2017》,在 NIPS 2017 正式開始前,我們將選出數篇優質論文,邀請論文作者來做線上分享,聊聊理論、技術和研究方法。11 月 8 日,第一期分享已經結束。週三晚上,多倫多大學三年級博士生 Yu
《老姚讀書》第一期:程式設計師,怎麼學習創業?
00 迷茫的時候,你就讀一點書 前幾天非常迷茫,寫下《一眼望到頭,一眼望不到頭》。 想了很多,也藉著一份衝動開始思考,在上班之外,我們該去做點什麼? 在這段時間,我做了兩件事,但是都不太方便說,或許等我成功後,也可以跟大家分享分享吧。 今天說的是,我買的4本書終於到手了。 易到創始人周航的《重新理解創業》、曹
快速閱讀實踐總結第一期:2017年9月11日——2017年9月24日
實踐 完成 管理類 計劃 小時 習慣 列表 睡眠 養成 一周計劃閱讀六本書 結果第一周閱讀三本書 第二周沒有閱讀成果 實踐失敗 但仍需堅持 問題所在: 不能養成起床閱讀的習慣 書籍選擇有問題,選擇一本需要精讀、總結、實踐的管理類書籍 不能堅持每天閱讀 已完成閱讀列表:
谷歌擴充套件分享第一期:完美訪問Google搜尋,YouTube,Twitter等網站
上期回顧:上一期介紹了Google Chrome下載官方正版瀏覽器及設定瀏覽器語言。 這期則介紹使用Google Chrome最基本的擴充套件,那就是利用谷歌服務助手和谷歌訪問助手訪問Google搜尋以及登入Google賬號等谷歌產品。 一、首先介紹谷歌服務助手 谷歌服務助手可以訪問所有Goog
Starblaze乾貨分享第一期:淺談NVMe1.4 IO Determinism!
NVMe協會發布了最新的NVMe 1.4 draft版本,其中NVMe 1.4中增加的最重要的一個內容應該就是IO determinism。IO determinism主要包含兩部分一個是NVM Sets一個是PLM(Predictable LatencyMod
【備忘】我的Python學習筆記,第一期
# -*- coding: UTF-8 -*- # 預設情況下,Python 3 原始碼檔案以 UTF-8 編碼,所有字串都是 unicode 字串 print("Hello, World!") # print ("你好,世界"); # Python中單行註釋以 # 開頭 #
Openzeppelin庫第一期:概念及用法
一. 概念:一個幫助我們在以太坊上建立安全智慧合約的開發庫,當前集成於truffle開發框架中。 二. 用法 安裝 truffle init npm init npm install openzeppelin-solidity 使用:import
開發者教程之資料檢索服務系列 | 第一期:資料檢索在網約車行業的應用
為滿足開發者多樣性的地圖服務使用需求,百度地圖開放平臺對外開放了多類地圖API服務。在眾多的地圖API服務中,和地理資料檢索相關的服務是開發者使用次數最多,同時也是應用範圍最廣的服務,以此為代表的有地點檢索服務、逆地理編碼服務等。為了方便廣大開發者快速接入服務,滿足業務需求,
金融安全資訊精選 2018年第一期:2017年P2P網貸行業年報,風控成保險業轉型新四大關鍵詞之一,央行釋出條碼支付規範
摘要: 2017年P2P網貸行業年報,風控成保險業轉型新四大關鍵詞之一,央行釋出條碼支付規範 概要:截至2017年12月底,網貸行業正常運營平臺數量達到了1931家,相比2016年底
浙大《面向物件程式設計--java語言》學習筆記(第四周:繼承和多型)
4.1 繼承 這裡我們有三個檔案 首先是Database.java package dome; import java.util.ArrayList; public class Database { private ArrayList<CD>
新遊雜談第一期:怪物獵人世界
本期新遊雜談,我們來聊聊卡普空公司的3A級巔峰之作《怪物獵人世界》。此前IGN的評測編輯也給《怪
TensorFlow 聊天機器人開源專案評測第一期:DeepQA
聊天機器人開源專案評測第一期:DeepQA 用 i5 的筆記本早上執行到下午,跑了 3 輪的結果,最後效果並不理想。官方預設是 30 輪,3 輪太少了,稍後用 GPU 跑了繼續更新。 1.可以順利執行,並沒有 Tensorflow 版本問題。 我的環境
[吃藥深度學習隨筆] 前向傳播:即如何在圖中輸入數據向前推進從而得到計算結果
矩陣 ted .com one 數據 UNC cat clas HA w = tf.Variable(tf.random_normal([2,3], stddev=2,mean=0, seed=1)) 其中 tf.random_normal是正太分布 除了這個
#資料結構與演算法學習筆記#劍指Offer35:數字在排序陣列中出現的次數 + 測試用例(Java、C/C++)
2018.10.24 今天是程式設計師節,但是程式設計師有啥節好過的,還是好好幹活吧~ 這道題也是一道效率題,根據實際情況的不同有兩個比較好用的方法: 方法一:平均複雜度o(n)。二分找到某一個K
SODBASE CEP學習(十四):在Studio配置檔案中編輯中文
使用者在個性化設定Studio的adaptor.properties配置檔案中,因為中文unicode編碼,常會遇到中文編輯的問題。 方法如下: 1.在安裝JDK的機器上,執行native2ascii是unicode中文可正常顯示 native2ascii -reverse -encod
JDBC學習筆記(五):模擬銀行轉賬
需求:模擬張三將賬戶中的1000元轉給了李四。 流程: 1.查詢支出方餘額。 2.查詢收款方賬號。3.更新支出方的餘額。 4.更新收款方的餘額。 實現程式碼: public void payDemo(double sum,String payId,String rec
《機器學習實戰》第三章 3.2在python 中使用matplotlib註解繪製樹形圖
《機器學習實戰》系列部落格主要是實現並理解書中的程式碼,相當於讀書筆記了。畢竟實戰不能光看書。動手就能遇到許多奇奇怪怪的問題。博文比較粗糙,需結合書本。博主邊查邊學,水平有限,有問題的地方評論區請多指教。書中的程式碼和資料,網上有很多請自行下載。 3.2.
Kubernetes學習筆記(六):使用ConfigMap和Secret配置應用程式
## 概述 本文的核心是:如何處理應用程式的資料配置。 配置應用程式可以使用以下幾種途徑: - 向容器傳遞命令列引數 - 為每個容器配置環境變數 - 通過特殊的卷將配置檔案掛載到容器中 ## 向容器傳遞命令列引數 在Kubernetes中定義容器時,映象的ENTRYPOINT和CMD都可以被覆蓋(但是在Do
《領導梯隊》:4星。企業中六個層級的領導的必知必會和必須不能做的事情。
進行 方案 更多 思路 和平 要花 能力 事情 專註 書不錯,根據許多企業的情況總結出來的,作者們有企業家的顧問經驗。 總體內容是每一次晉級都是思路的轉換,每一層領導都需要轉換思路才能做好,每一層領導都容易犯的錯誤是事必躬親。 作者列出六個層級的領導:經理、總監、事