大資料平臺和AI平臺
阿新 • • 發佈:2021-11-10
AI平臺和BigData platform
數字化和資訊化
數字化轉型-數字化工具和數字化體系
硬體基礎--運維團隊 網路團隊
數字化--業務線上,海量資料-資料驅動,關鍵資料-業務驅動,核心資料-人事驅動
新的業務邏輯和組織管理模式
大資料平臺
大資料平臺的構建--有一個業務,就可以有資料接入,資料採集,資料同步和傳輸,資料計算和資料探勘以及資料視覺化 採用的工具棧有開源的,也有商業的,搭建和應用起來比較方便,尤其結合雲端計算技術,彈性伸縮和自動編排等功能 資料建設都是為了使用者更快、更方便、更放心的使用資料 實時資料: 資料質量和資料時效 資料管理-資料時效保障 - 目標- 機制-方法-效果-成本 資料質量保障 資料質量 資料質量反饋迴路 關注資料 pipeline 的實踐、政治和人的價值觀, 通過使用流程、標準、基礎設施和激勵措施來提高資料的質量和地位
AI平臺:
AI平臺和大資料平臺有很多相似的地方,然而構建起來,思路會有所不同 AI平臺在概念驗證和生產階段的所面臨的問題也不同。 以資料為中心的視覺 AI 建立一個端到端平臺 深度學習的核心要素是算力、演算法和資料,如何構建一個高效的端到端AI平臺,直接決定了業務的天花板和迭代進化效率 演算法工程師希望可以像搭積木一樣自由進行模型設計組裝,並且快速進行效果驗證 機器學習研究和機器學習應用 工業級機器學習 解決的問題的複雜性不單是關注演算法模型的程式碼的開發, 而是一個涉及在離線閉環的,包括特徵、樣本,模型已經應用的的全鏈路問題。 專業的資料標註服務商 監督學習所需要的大規模、高質量的標註資料集是AI產業發展的剛需,也是AI工業化的主要瓶頸之一 資源管理、專案管理和標註工具箱 資料採集、準備和管理 資料標註行業正從簡單的勞動力密集型向專業型資料服務過渡。 人力資源的培訓和評估:標註員和質檢員-資料的提交和打回 資料驗收,自動化訓練,自動打分和反饋 前沿的技術架構: 迭代: 資料迭代: 資料採集和管理平臺的更新 更多時候,你需要定製資料 工具迭代: 傳統工具和自動化工具以及AI工具 對同一個場景提出不同的資料標註要求 不同團隊需要標註不同的資料屬性 資料合規性和隱私保護的要求-- 雲端標註和私有化部署 演算法迭代: 訓練 部署: 邊緣裝置 環境變化 一套從模型訓練到端上推理的完整 AI 架構 業務層 中臺層 AI 介面層、AI 演算法層和 AI 底層庫 系統層 硬體層 開發環境: 資料管理平臺:資料採集 資料清洗 資料標註 資料迴流 AI訓練平臺: 模型訓練 模型倉庫 模型評測 模型壓縮 應用環境:功能 效能 成本 AI 應用落地 整體框架層面設計: 通用資料介面 圖形影象庫 效能方面的探索和實踐:前後處理和模型推理
準則:
你無法只用理論上的可行性來應付一切
從以模型為中心到以資料為中心的機器學習開發的轉變:同步開發模型和資料: 在開始階段有AI模型,到AI模型很多的時候
自己標註資料,至少在開始的時候
MLOps--》 DevOps
追求演算法的先進性--追求演算法的應用價值
參考
端側 AI SDK 框架,快手爆款特效落地背後的祕密 https://mp.weixin.qq.com/s/K5yCIFnLqUFkjtNITWbsZw 別再把資料當作商品了 https://mp.weixin.qq.com/s/fiGKxYdQd_ZlDkCgyBTuRQ 實時數倉不保障時效還玩個毛?https://mp.weixin.qq.com/s/WbqwXHb2IPmvh1rdA74jLw