1. 程式人生 > >人工智慧最全學習路線

人工智慧最全學習路線

本階段主要從資料分析、概率論和線性代數及矩陣和凸優化這四大塊講解基礎,旨在訓練大家邏輯能力,分析能力。擁有良好的數學基礎,有利於大家在後續課程的學習中更好的理解機器學習和深度學習的相關演算法內容。同時對於AI研究尤為重要,例如人工智慧中的智慧很大一部分依託“概率論”實現的。

一、資料分析

1)常數e
2)導數 
3)梯度 
4)Taylor

5)gini係數
6)資訊熵與組合數
7)梯度下降
8)牛頓法

二、概率論

1)微積分與逼近論
2)極限、微分、積分基本概念 
3)利用逼近的思想理解微分,利用積分的方式理解概率
4)概率論基礎
5)古典模型

6)常見概率分佈
7)大數定理和中心極限定理 
8)協方差(矩陣)和相關係數 
9)最大似然估計和最大後驗估計

三、線性代數及矩陣

1)線性空間及線性變換 
2)矩陣的基本概念 
3)狀態轉移矩陣 
4)特徵向量 
5)矩陣的相關乘法

6)矩陣的QR分解 
7)對稱矩陣、正交矩陣、正定矩陣 
8)矩陣的SVD分解 
9)矩陣的求導 
10)矩陣對映/投影

四、凸優化

1)凸優化基本概念 
2)凸集 
3)凸函式

4)凸優化問題標準形式 
5)凸優化之Lagerange對偶化 
6)凸優化之牛頓法、梯度下降法求解

階段二、人工智慧提升 - Python高階應用

隨著AI時代的到來以及其日益蓬勃的發展,Python作為AI時代的頭牌語言地位基本確定,機器學習是著實令人興奮,但其複雜度及難度較大,通常會涉及組裝工作流和管道、設定資料來源及內部和雲部署之間的分流而有了Python庫後,可幫助加快資料管道,且Python庫也在不斷更新發布中,所以本階段旨在為大家學習後續的機器學習減負。

一、容器

1)列表:list
2)元組:tuple
3)字典: dict
4)陣列: Array

5)切片
6)列表推導式
7)淺拷貝和深拷貝

二、函式

1)lambda表示式
2)遞迴函式及尾遞迴優化

3)常用內建函式/高階函式 
4)專案案例:約瑟夫環問題

三、常用庫

1)時間庫
2)併發庫 
3)科學計算庫

4)Matplotlib視覺化繪相簿 
5)鎖和執行緒
6)多執行緒程式設計

階段三、人工智慧實用 - 機器學習篇

機器學習利用演算法去分析資料、學習資料,隨後對現實世界情況作出判斷和預測。因此,與預先編寫好、只能按照特定邏輯去執行指令的軟體不同,機器實際上是在用大量資料和演算法去“自我訓練”,從而學會如何完成一項任務。
所以本階段主要從機器學習概述、資料清洗和特徵選擇、迴歸演算法、決策樹、隨機森林和提升演算法、SVM、聚類算、EM演算法、貝葉斯演算法、隱馬爾科夫模型、LDA主題模型等方面講解一些機器學習的相關演算法以及這些演算法的優化過程,這些演算法也就是監督演算法或者無監督演算法。

一、機器學習

1)機器學習概述

二、監督學習

1)邏輯迴歸 
2)softmax分類 
3)條件隨機場 
4)支援向量機svm

5)決策樹 
6)隨機森林 
7)GBDT 
8)整合學習

三、非監督學習

1)高斯混合模型 
2)聚類 
3)PCA

4)密度估計

5)LSI 
6)LDA 
7)雙聚類

四、資料處理與模型調優

1)特徵提取
2)資料預處理
3)資料降維

4)模型引數調優
5)模型持久化
6)模型視覺化

階段四、人工智慧實用 - 資料探勘篇

本階段主要通過音樂檔案分類和金融反欺詐模型訓練等專案,幫助大家對於上階段的機器學習做更深入的鞏固,為後續深度學習及資料探勘提供專案支撐。

專案一:百度音樂系統檔案分類

音樂推薦系統就是利用音樂網站上的音樂資訊,向用戶提供音樂資訊或者建議,幫助使用者決定應該聽什麼歌曲。而個人化推薦則是基於音樂資訊及使用者的興趣特徵、聽歌歷史行為,向用戶推薦使用者可能會感興趣的音樂或者歌手。推薦演算法主要分為以下幾種:基於內容的推薦、協同過濾推薦、基於關聯規則推薦、基於效用推薦、基於知識推薦等;推薦系統常用於各個網際網路行業中,比如音樂、電商、旅遊、金融等。

專案二:千萬級P2P金融系統反欺詐模型訓練

目前比較火的網際網路金融領域,實質是小額信貸,小額信貸風險管理,本質上是事前對風險的主動把控,儘可能預測和防範可能出現的風險。本專案應用GBDT、Randomforest等機器學習演算法做信貸反欺詐模型,通過資料探勘技術,機器學習模型對使用者進行模型化綜合度量,確定一個合理的風險範圍,使風險和盈利達到一個平衡的狀態。

階段五、人工智慧前沿 - 深度學習篇

深度學習是實現機器學習的技術,同時深度學習也帶來了機器學習的許多實際應用,拓展了AI的使用領域,本階段主要從TensorFlow、BP神經網路、深度學習概述、CNN卷積神經網路、遞迴神經網、自動編碼機,序列到序列網路、生成對抗網路,孿生網路,小樣本學習技術等方面講解深度學習相關演算法以,掌握深度學習前沿技術,並根據不同專案選擇不同的技術解決方案。針對公司樣本不足,採用小樣本技術和深度學習技術結合,是專案落地的解決方案。

1)TensorFlow基本應用 
2)BP神經網路
3)深度學習概述
4)卷積神經網路(CNN) 
5)影象分類(vgg,resnet)
6)目標檢測(rcnn,fast-rcnn,faster-rcnn,ssd)
7)遞迴神經網路(RNN)
8)lstm,bi-lstm,多層LSTM

9)無監督學習之AutoEncoder自動編碼器
10)Seq2Seq
11)Seq2Seq with Attension
12)生成對抗網路
13)irgan
14)finetune及遷移學習
15)孿生網路
16)小樣本學習

階段六、人工智慧進階 - 自然語言處理篇

自然語言處理(NLP)是電腦科學領域與人工智慧領域中的一個重要方向。它已成為人工智慧的核心領域。自然語言處理解決的是“讓機器可以理解自然語言”這一到目前為止都還只是人類獨有的特權,被譽為人工智慧皇冠上的明珠,被廣泛應用。本階段從NLP的字、詞和句子全方位多角度的學習NLP,作為NLP的基礎核心技術,對NLP為核心的專案,如聊天機器人,合理用藥系統,寫詩機器人和知識圖譜等提供底層技術。通過學習NLP和深度學習技術,掌握NLP具有代表性的前沿技術。

1)詞(分詞,詞性標註)程式碼實戰 
2)詞(深度學習之詞向量,字向量)程式碼實戰 
3)詞(深度學習之實體識別和關係抽取)程式碼實戰 
4)詞(關鍵詞提取,無用詞過濾)程式碼實戰

5)句(句法分析,語義分析)程式碼實戰
6)句(自然語言理解,一階邏輯)程式碼實戰
7)句(深度學習之文字相似度)程式碼實戰

階段七、人工智慧進階 - 影象處理篇

數字影象處理(Digital Image Processing)是通過計算機對影象進行去除噪聲、增強、復原、分割、提取特徵等處理的方法和技術。廣泛的應用於農牧業、林業、環境、軍事、工業和醫學等方面,是人工智慧和深度學習的重要研究方向。深度學習作為當前機器學習領域最熱門的技術之一,已經在影象處理領域獲得了應用,並且展現出巨大的前景。本階段學習了數字影象的基本資料結構和處理技術,到前沿的深度學習處理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度學習模型,對影象分類,目標檢測和模式識別等影象處理主要領域達到先進水平。實際工作中很多專案都可以轉化為本課程的所學的知識去解決,如行人檢測,人臉識別和數字識別。

一、影象基礎

影象讀,寫,儲存,畫圖(線,圓,多邊形,新增文字)

二、影象操作及算數運算

影象畫素讀取,算數運算,ROI區域提取

三、影象顏色空間運算

影象顏色空間相互轉化

四、影象幾何變換

平移,旋轉,仿射變換,透視變換等

五、影象形態學

腐蝕,膨脹,開/閉運算等

六、影象輪廓

長寬,面積,周長,外接圓,方向,平均顏色,層次輪廓等

七、影象統計學

影象直方圖

八、影象濾波

高斯濾波,均值濾波,雙邊濾波,拉普拉斯濾波等

階段八、人工智慧終極實戰 - 專案應用

本階段重點以專案為導向,通過公安系統人臉識別、影象識別以及影象檢索、今日頭條CTR廣告點選量預估、序列分析系統、聊天機器人等多個專案的講解,結合實際來進行AI的綜合運用。

專案一:公安系統人臉識別、影象識別

使用深度學習框架從零開始完成人臉檢測的核心技術影象類別識別的操作,從資料預處理開始一步步構建網路模型並展開分析與評估,方便大家快速動手進行專案實踐!識別上千種人靚,返回層次化結構的每個人的標籤。

專案二:公安系統圖像檢索

本專案基於卷積神經網在訓練過程中學習出對應的『二值檢索向量』,對全部圖先做了一個分桶操作,每次檢索的時候只取本桶和臨近桶的圖片作比對,而不是在全域做比對,使用這樣的方式提高檢索速度,使用Tensorflow框架建立基於ImageNet的卷積神經網路,並完成模型訓練以及驗證。

專案三:今日頭條CTR廣告點選量預估

點選率預估是廣告技術的核心演算法之一,它是很多廣告演算法工程師喜愛的戰場。廣告的價值就在於宣傳效果,點選率是其中最直接的考核方式之一,點選率越大,證明廣告的潛在客戶越多,價值就越大,因此才會出現了刷點選率的工具和技術。通過對於點選量的評估,完成對於潛在使用者的價值挖掘。

專案四:序列分析系統

時間序列分析(Time Series Analysis)是一種動態資料處理的統計方法,主要基於隨機過程理論和數理統計方法,研究隨機資料序列所遵從的統計規律以便用於解決實際問題。主要包括自相關分析等一般的統計分析方法,構建模型從而進行業務推斷。經典的統計分析是假定資料序列具有獨立性,而時間序列分析則側重於研究資料樣本序列之間的依賴關係。時間序列預測一般反應了三種實際變化規律:趨勢變化、週期性變化和隨機性變化。時間序列預測常應用於國民經濟巨集觀控制、企業經營管理、市場潛力量預測、天氣預報、水文預報等方面,是應用於金融行業的一種核心演算法之一。

專案五:京東聊天機器人/智慧客服

聊天機器人/智慧客服是一個用來模擬人類對話或者聊天的一個系統,利用深度學習和機器學習等NLP相關演算法構建出問題和答案之間的匹配模型,然後可以將其應用到客服等需要線上服務的行業領域中,聊天機器人可以降低公司客服成本,還能夠提高客戶的體驗友好性。 在一個完整的聊天機器人實現過程中,主要包含了一些核心技術,包括但不限於:爬蟲技術、機器學習演算法、深度學習演算法、NLP領域相關演算法。通過實現一個聊天機器人可以幫助我們隊AI整體知識的一個掌握。

專案六:機器人寫詩歌

機器人寫詩歌/小說是一種基於NLP自然語言相關技術的一種應用,在實現過程中可以基於機器學習相關演算法或者深度學習相關演算法來進行小說/詩歌構建過程。人工智慧的一個終極目標就是讓機器人能夠像人類一樣理解文字,並運用文字進行創作,而這個目標大致上主要分為兩個部分,也就是自然語言理解和自然語言生成,其中現階段的主要自然語言生成的運用,自然語言生成主要有兩種不同的方式,分別為基於規則和基於統計,基於規則是指首先了解詞性及語法等規則,再依據這樣的規則寫出文章;而基於統計的本質是根據先前的字句和統計的結果,進而判斷下一個子的生成,例如馬爾科夫模型就是一種常用的基於統計的方法。

專案七:機器翻譯系統

機器翻譯又稱自動翻譯,是指利用計算機將一種自然語言轉換為另外一種自然語言的過程,機器翻譯是人工智慧的終極目標之一,具有很高的研究價值,同時機器翻譯也具有比較重要的實用價值,機器翻譯技術在促進政治、經濟、文化交流等方面起到了越來越重要的作用;機器翻譯主要分為以下三個過程:原文分析、原文譯文轉換和譯文生成;機器翻譯的方式有很多種,但是隨著深度學習研究取得比較大的進展,基於人工網路的機器翻譯也逐漸興起,特別是基於長短時記憶(LSTM)的迴圈神經網路(RDD)的應用,為機器翻譯添了一把火。

專案八:垃圾郵件過濾系統

郵件主要可以分為有效郵件和垃圾郵件兩大類,有效郵件指的郵件接收者有意義的郵件,而垃圾郵件轉指那些沒有任何意義的郵件,其內容主要包含賺錢資訊、成人廣告、商業或者個人網站廣告、電子雜誌等,其中垃圾郵件又可以發為良性垃圾郵件和惡性垃圾郵件,良性垃圾郵件指的就是對收件人影響不大的資訊郵件,而惡性垃圾郵件指具有破壞性的電子郵件,比如包含病毒、木馬等惡意程式的郵件。垃圾郵件過濾主要使用使用機器學習、深度學習等相關演算法,比如貝葉斯演算法、CNN等,識別出所接收到的郵件中那些是垃圾郵件。

專案九:手工數字識別

人認知世界的開始就是從認識數字開始的,深度學習也一樣,數字識別是深度學習的一個很好的切入口,是一個非常經典的原型問題,通過對手寫數字識別功能的實現,可以幫助我們後續對神經網路的理解和應用。選取手寫數字識別的主要原因是手寫數字具有一定的挑戰性,要求對程式設計能力及神經網路思維能力有一定的要求,但同時手寫數字問題的複雜度不高,不需要大量的運算,而且手寫數字也可以作為其它技術的一個基礎,所以以手寫數字識別為基礎,貫穿始終,從而理解深度學習相關的應用知識。

專案十:癌症篩選檢測

技術可以改變癌症患者的命運嗎,對於患有乳腺癌患者來說,復發還是痊癒影響這患者的生命,那麼怎麼來預測患者的患病結果呢,機器學習演算法可以幫助我們解決這一難題,本專案應用機器學習logistic迴歸模型,來預測乳腺癌患者復發還是正常,有效的預測出醫學難題。

專案十一:葡萄酒質量檢測系統

隨著資訊科技的快速發展,計算機中的經典演算法在葡萄酒產業中得到了廣泛的研究與應用。其中機器學習演算法的特點是運用了人工智慧技術,在大量的樣本集訓練和學習後可以自動地找出運算所需要的引數和模型。

專案十二:淘寶網購物籃分析推薦演算法

購物籃分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一個反應,是通過對購物籃中的商品資訊進行分析研究,得出顧客的購買行為,主要目的是找出什麼樣的物品會經常出現在一起,也就是那些商品之間是有很大的關聯性的。通過購物籃分析挖掘出來的資訊可以用於指導交叉銷售、追加銷售、商品促銷、顧客忠誠度管理、庫存管理和折扣計劃等業務;購物籃分析的最常用應用場景是電商行業,但除此之外,該演算法還被應用於信用卡商城、電信與金融服務業、保險業以及醫療行業等。

專案十三:手工實現梯度下降回歸演算法

梯度下降法(英語:Gradient descent)是一個一階最優化演算法,通常也稱為最速下降法。 要使用梯度下降法找到一個函式的區域性極小值,必須向函式上當前點對應梯度(或者是近似梯度)的反方向的規定步長距離點進行迭代搜尋。如果相反地向梯度正方向迭代進行搜尋,則會接近函式的區域性極大值點;這個過程則被稱為梯度上升法。

專案十四:基於TensorFlow實現迴歸演算法

迴歸演算法是業界比較常用的一種機器學習演算法,通過應用於各種不同的業務場景,是一種成熟而穩定的演算法種類;TensorFlow是一種常用於深度學習相關領域的演算法工具;隨著深度學習熱度的高漲,TensorFlow的使用也會越來越多,從而使用TensorFlow來實現一個不存在的演算法,會加深對TensorFlow的理解和使用;基於TensorFlow的迴歸演算法的實現有助於後續的TensorFlow框架的理解和應用,並可以促進深度學習相關知識的掌握。

專案十五:合理用藥系統

合理用藥系統,是根據臨床合理用藥專業工作的基本特點和要求,運用NLP和深度學習技術對藥品說明書,臨床路徑等醫學知識進行標準化,結構化處理。如自動提取藥品說明書文本里面的關鍵資訊如:藥品相互作用,禁忌,用法用量,適用人群等,實現醫囑自動審查,及時發現不合理用藥問題,幫助醫生、藥師等臨床專業人員在用藥過程中及時有效地掌握和利用醫藥知識,預防藥物不良事件的發生、促進臨床合理用藥工作。

專案十六:行人檢測

行人檢測是利用影象處理技術和深度學習技術對影象或者視訊序列中是否存在行人並給予精確定位。學習完行人檢測技術後,對類似的工業缺陷檢測,外觀檢測和醫療影像檢測等目標檢測範疇類的專案可以一通百通。該技術可與行人跟蹤,行人重識別等技術結合,應用於人工智慧系統、車輛輔助駕駛系統、智慧機器人、智慧視訊監控、人體行為分析、智慧交通等領域。由於行人兼具剛性和柔性物體的特性 ,外觀易受穿著、尺度、遮擋、姿態和視角等影響,使得行人檢測成為計算機視覺領域中一個既具有研究價值同時又極具挑戰性的熱門課題。

階段九、人工智慧實戰 - 企業專案實戰

課程一、基於Python資料分析與機器學習案例實戰教程

課程風格通俗易懂,基於真實資料集案例實戰。主體課程分成三個大模組(1)python資料分析,(2)機器學習經典演算法原理詳解,(3)十大經典案例實戰。通過python資料科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的機器學習案例。演算法課程注重於原理推導與流程解釋,結合例項通俗講解複雜的機器學習演算法,並以實戰為主,所有課時都結合程式碼演示。演算法與專案相結合,選擇經典kaggle專案,從資料預處理開始一步步程式碼實戰帶大家快速入門機器學習。旨在幫助同學們快速上手如何使用python庫來完整機器學習案例。選擇經典案例基於真實資料集,從資料預處理開始到建立機器學習模型以及效果評估,完整的講解如何使用python及其常用庫進行資料的分析和模型的建立。對於每一個面對的挑戰,分析解決問題思路以及如何構造合適的模型並且給出合適評估方法。在每一個案例中,同學們可以快速掌握如何使用pandas進行資料的預處理和分析,使用matplotlib進行視覺化的展示以及基於scikit-learn庫的機器學習模型的建立。

1)Python資料分析與機器學習實戰課程簡介
2)Python快速入門
3)Python科學計算庫Numpy
4)Python資料分析處理庫Pandas
5)Python視覺化庫Matplotlib
6)迴歸演算法
7)模型評估
8)K近鄰演算法
9)決策樹與隨機森林演算法
10)支援向量機 
11)貝葉斯演算法
12)神經網路
13)Adaboost演算法

14)SVD與推薦
15)聚類演算法
16)案例實戰:使用Python庫分析處理Kobe Bryan職業生涯資料
17)案例實戰:信用卡欺詐行為檢測
18)案例實戰:泰坦尼克號獲救預測
19)案例實戰:鳶尾花資料集分析
20)案例實戰:級聯結構的機器學習模型
21)案例實戰:員工離職預測
22)案例實戰:使用神經網路進行手寫字型識別
23)案例實戰:主成分分析
24)案例實戰:基於NLP的股價預測 
25)案例實戰:借貸公司資料分析

課程二、人工智慧與深度學習實戰

課程風格通俗易懂,必備原理,形象解讀,專案實戰缺一不可!主體課程分成四個大模組(1)神經網路必備基礎知識點,(2)深度學習模型,(3)深度學習框架Caffe與Tensorflow,(4)深度學習專案實戰。 課程首先概述講解深度學習應用與挑戰,由計算機視覺中影象分類任務開始講解深度學習的常規套路。對於複雜的神經網路,將其展開成多個小模組進行逐一攻破,再挑戰整體神經網路架構。對於深度學習模型形象解讀卷積神經網路原理,詳解其中涉及的每一個引數,對卷積網路架構展開分析與評估,對於現階段火爆的對抗生成網路以及強化學習給出形象解讀,並配合專案實戰實際演示效果。 基於框架實戰,選擇兩款深度學習最火框架,Caffe與Tensorflow,首先講解其基本使用方法,並結合案例演示如何應用框架構造神經網路模型並完成案例任務。 選擇經典深度學習專案實戰,使用深度學習框架從零開始完成人臉檢測,驗證碼識別,人臉關鍵點定位,垃圾郵件分類,影象風格轉換,AI自己玩遊戲等。對於每一個專案實戰,從資料預處理開始一步步構建網路模型並展開分析與評估。 課程提供所涉及的所有資料,程式碼以及PPT,方便大家快速動手進行專案實踐!

1)深度學習概述與挑戰
2)影象分類基本原理門
3)深度學習必備基礎知識點
4)神經網路反向傳播原理
5)神經網路整體架構
6)神經網路案例實戰影象分類任務
7)卷積神經網路基本原理
8)卷積引數詳解
9)卷積神經網路案例實戰
10)經典網路架構分析 
11)分類與迴歸任務
12)三代物體檢測演算法分析
13)資料增強策略
14)TransferLearning
15)網路架構設計
16) 深度學習框架Caffe網路結構配置
17)Caffe
18)深度學習專案實戰人臉檢測

19)人臉正負樣本資料來源製作
20)人臉檢測網路架構配置習模型
21)人臉檢測程式碼實戰
22)人臉關鍵點定位專案實戰
23)人臉關鍵點定位網路模型
24)人臉關鍵點定位構建級聯網路
25)人臉關鍵點定位測試效果與分析 
26)Tensorflow框架實戰
27)Tensorflow構建迴歸模型
28)Tensorflow構建神經網路模型
29)Tensorflow深度學習模型
30)Tensorflow打造RNN網路模型
31)Tensorflow專案實戰驗證識別
32)專案實戰影象風格轉換
33)QLearning演算法原理
34)DQN網路架構
35)專案實戰DQN網路讓AI自己玩遊戲
36)專案實戰對抗生成網路等

專案一、AI大資料網際網路電影智慧推薦(第一季)

隨著科技的發展,現在視訊的來源和型別多樣性,網際網路視訊內容充斥著整個網路,如果僅僅是通過翻頁的方法來尋找自己想看的視訊必然會感到疲勞,現在急需一種能智慧推薦的工具,推薦系統通過分析使用者對視訊的評分分析,對使用者的興趣進行建模,從而預測使用者的興趣並給使用者進行推薦。
Python是一種面向物件的解釋型計算機程式設計語言,Python具有豐富和強大的庫。它常被暱稱為膠水語言,而大資料是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,企業面臨海量資料的到來,大多選擇把資料從本地遷移至雲端,雲端將成為最大的非結構化資料儲存場所。本專案主要以客戶諮詢為載體,分析客戶的群體,分佈,旨在挖掘客戶的內在需求,幫助企業實現更有價值的營銷。

一、教務管理系統業務介紹

1)教務管理系統框架講解

2)系統業務邏輯介紹

二、大資料需求分析

1)明確資料需求 
2)大資料分析過程

3)分析難點和解決方案 
4)大資料相關技術選型

三、構建分散式大資料框架

1)Hadoop分散式叢集配置 
2)ZooKeeper高可用 
3)SQOOP資料轉移

4)ETL資料清洗 
5)HIVE資料分析 
6)HBase資料儲存

四、基於教務管理系統大資料分析

1)業務資料分析指標設定
2)操作MapReduce分而治之

3)使用Hive進行資料整合抽離
4)使用HBase儲存非結構話資料

五、大資料視覺化

1)視覺化技術選型
2)Echarts程式碼展示炫酷檢視

3)使用Tableau進行資料視覺化展示

專案二、電商大資料情感分析與AI推斷實戰專案(第一季)

本專案從開發的角度以大資料、PHP技術棧為基礎,使用真實商用表結構和脫敏資料,分三步構建商用系統、真實大資料環境、進行推斷分析以及呈現結果。 專案課程的完整性、商業性,可以使學者儘可能完整地體會真實的商業需求和業務邏輯。完整的專案過程,使PHP技術棧的同學得以窺見和學到一個完整商業平臺專案的搭建方法;真實大資料環境的搭建,使呈現、建立大資料的工具應用技術概念儲備;基於大資料平臺的分析需求的實現、呈現,將完整的一次大資料技術棧到分析結果的中線,平鋪直述,為想要學習大資料並有開發基礎的同學點亮新的能力。

一、實踐專案研發

1)開發環境的安裝配置
2)表與資料
3)LARAVEL的快速開發實踐

4)批量建立模型
5)萬能控制器與表配置
6)統一檢視的建立

二、資料分析需求設立

1)定義資料需求 
2)分析計算過程

3)分析難點和解決方案 
4)大資料技術選型

三、大資料平臺搭建

1)分散式環境的模擬建立 
2)網路環境的調通 
3)身份驗證與叢集控制

4)Hadoop環境搭建和要點說明 
5)MapReduce與Yarn的搭建和說明

四、大資料分析指令碼編寫

1)MapReduce指令碼編寫
2)拆解資料需求
3)Map邏輯詳寫

4)Reduce邏輯詳寫
5)結果整理與輸出

五、結果視覺化

1)視覺化需求和技術選型
2)展示頁面的快速鋪設

3)視覺化JS上手
4)使用視覺化JS展示結果

專案三、AI法律諮詢大資料分析與服務智慧推薦實戰專案(第一季)

本專案結合目前流行的大資料框架,在原有成熟業務的前提下,進行大資料分析處理,真實還原企業應用,讓學員身臨其境的感受企業大資料開發的整個流程。
專案的業務系統底層主要採用JAVA架構,大資料分析主要採用Hadoop框架,其中包括Kettle實現ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智慧演算法等框架技術;採用真實大資料叢集環境的搭建,讓學員切身感受企業專案的從0到1的過程。

一、系統業務介紹

1)底層業務實現框架講解

2)功能模組講解

二、系統架構設計

1)總體架構分析 
2)資料流向

3)各技術選型承載作用 
4)部署方案

三、詳盡實現

1)原始資料處理 
2)ETL資料匯入

3)MR資料計算 
4)Hive資料分析

四、資料視覺化

1)採用Highcharts外掛展示客戶偏好曲線圖

2)使用Tableau進行資料分析視覺化展示

五、專案優化

1)ZooKeeper實現HA

2)叢集監控的整體聯調

專案四、AI大資料基站定位智慧推薦商圈分析專案實戰(第一季)

隨著當今個人手機終端的普及、出行人群中手機擁有率和使用率已達到相當高的比例,根據手機訊號在真實地理空間的覆蓋情況,將手機使用者時間序列的手機定位資料,對映至現實地理位置空間位置,即可完整、客觀地還原出手機使用者的現實活動軌跡,從而挖掘出人口空間分佈與活動聯絡特徵資訊。
商圈是現代市場中企業市場活動的空間,同時也是商品和服務享用者的區域。商圈劃分為目的之一是研究潛在顧客分佈,以制定適宜的商業對策。
本專案以實戰為基礎結合大資料技術Hadoop、.Net技術全棧為基礎,採用真實商業資料,分不同環節構建商用系統、真實大資料環境、進行推斷分析及呈現資料。

一、分析系統業務邏輯講解

1)大資料基站定位智慧推薦商圈分析系統介紹

2)資料前期清洗和資料分析目標指標的設定等

二、大資料匯入與儲存

1)關係型資料庫基礎知識 
2)hive的基本語法
3)hive的架構及設計原理 
4)hive安裝部署與案例等

5)Sqoop安裝及使用 
6)Sqoop與關係型資料庫進行互動等
7)動手實踐

三、Hbase理論及實戰

1)Hbase簡介、安裝及配置 
2)Hbase的資料儲存與資料模型
3)Hbase Shell

4)Hbase 訪問介面
5)Hbase資料備份與恢復方法等
6)動手實踐(資料轉儲與備份)

四、基站資料分析與統計推斷

1)背景與分析推斷目標 
2)分析方法與過程推斷

3)動手實踐(分析既定指標資料)

五、資料分析與統計推斷結果的展示(大資料視覺化)

1)使用Tableau展示資料分析結果

2)使用HighCharts、ECharts展示資料分析結果

階段十、阿里雲認證

課程一、雲端計算 - 網站建設:部署與釋出

阿里雲網站建設認證課程教你如何掌握將一個本地已經設計好的靜態網站釋出到Internet公共網際網路,繫結域名,完成工信部的ICP備案。

課程二、雲端計算 - 網站建設:簡單動態網站搭建

阿里雲簡單動態網站搭建課程教你掌握如何快速搭建一個WordPress動態網站,並會對網站進行個性化定製,以滿足不同的場景需求。

課程三、雲端計算 - 雲伺服器管理維護

阿里雲伺服器運維管理課程教你掌握快速開通一臺雲伺服器,並通過管理控制檯方便地進行伺服器的管理、伺服器配置的變更和升級、資料的備份,並保證其可以正常運轉並按業務需求隨時進行配置的變更。

課程四、雲端計算 - 雲資料庫管理與資料遷移

阿里云云資料庫管理與資料遷移認證課程掌握雲資料庫的概念,如何在雲端建立資料庫、將自建資料庫遷移至雲資料庫MySQL版、資料匯入匯出,以及雲資料庫運維的常用操作。

課程五、雲端計算 - 雲端儲存:物件儲存管理與安全

阿里云云儲存認證課程教你掌握安全、高可靠的雲端儲存的使用,以及在雲端儲存下載檔案,處理圖片,以及如何保護資料的安全。

課程六、雲端計算 - 超大流量網站的負載均衡

掌握如何為網站實現負載均衡,以輕鬆應對超大流量和高負載。

課程七、大資料 - MOOC網站日誌分析

本課程可以幫助學員掌握如何收集使用者訪問日誌,如何對訪問日誌進行分析,如何利用大資料計算服務對資料進行處理,如何以圖表化的形式展示分析後的資料。

課程八、大資料 - 搭建企業級資料分析平臺

模擬電商場景,搭建企業級的資料分析平臺,用來分析商品資料、銷售資料以及使用者行為等。

課程九、大資料 - 基於LBS的熱點店鋪搜尋

本課程可以幫助學員掌握如何在分散式計算框架下開發一個類似於手機地圖查詢周邊熱點(POI)的功能,掌握GeoHash編碼原理,以及在地理位置中的應用,並能將其應用在其他基於LBS的定位場景中。
課程中完整的演示了整個開發步驟,學員在學完此課程之後,掌握其原理,可以在各種分散式計算框架下完成此功能的開發,比如MapReduce、Spark。

課程十、大資料 - 基於機器學習PAI實現精細化營銷

本課程通過一個簡單案例瞭解、掌握企業營銷中常見的、也是必需的精準營銷資料處理過程,瞭解機器學習PAI的具體應用,指導學員掌握大資料時代營銷的利器---通過機器學習實現營銷。

課程十一、大資料 - 基於機器學習的客戶流失預警分析

本課程講解了客戶流失的分析方法、流程,同時詳細介紹了機器學習中常用的分類演算法、整合學習模型等通用技能,並使用阿里雲機器學習PAI實現流失預警分析。可以幫助企業快速、準確識別流失客戶,輔助制定策略進行客戶關懷,達到挽留客戶的目的。

課程十二、大資料 - 使用DataV製作實時銷售資料視覺化大屏

幫助非專業工程師通過圖形化的介面輕鬆搭建專業水準的實時視覺化資料大屏,以滿足業務展示、業務監控、風險預警等多種業務的展示需求。

課程十三、大資料 - 使用MaxCompute進行資料質量核查

通過本案例,學員可瞭解影響資料質量的因素,出現數據質量問題的型別,掌握通過MaxCompute(DateIDE)設計資料質量監控的方法,最終獨立解決常見的資料質量監控需求。

課程十四、大資料 - 使用Quick BI製作圖形化報表

阿里雲Quick BI製作圖形化報表認證課程教你掌握將電商運營過程中的資料進行圖表化展現,掌握通過Quick BI將資料製作成各種圖形化報表的方法,同時還將掌握搭建企業級報表門戶的方法。

課程十五、大資料 - 使用時間序列分解模型預測商品銷量

使用時間序列分解模型預測商品銷量教你掌握商品銷量預測方法、時間序列分解以及熟悉相關產品的操作演示和專案介紹。

課程十六、雲安全 - 雲平臺使用安全

阿里云云平臺使用安全認證課程教你瞭解由傳統IT到雲端計算架構的變遷過程、當前資訊保安的現狀和形勢,以及在雲端計算時代不同系統架構中應該從哪些方面利用雲平臺的優勢使用安全風險快速降低90%。

課程十七、雲安全 - 雲上伺服器安全

阿里云云上伺服器安全認證課程教你瞭解在網際網路上提供計算功能的伺服器主要面臨哪些安全風險,並針對這些風險提供了切實可行的、免費的防護方案。

課程十八、雲安全 - 雲上網路安全

瞭解網路安全的原理和解決辦法,以及應對DDoS攻擊的方法和防護措施,確保雲上網路的安全。

課程十九、雲安全 - 雲上資料安全

瞭解雲上資料的安全隱患,掌握資料備份、資料加密、資料傳輸安全的解決方法。

課程二十、雲安全 - 雲上應用安全

瞭解常見的應用安全風險,SQL注入原理及防護,網站防篡改的解決方案等,確保雲上應用的安全。

課程二十一、雲安全 - 雲上安全管理

瞭解雲上的安全監控方法,學會使用監控大屏來監控安全風險,並能夠自定義報警規則,確保隨時掌握雲上應用的安全情況。