1. 程式人生 > 資訊 >嘉楠科技釋出高效能影象及語音處理 AI 晶片勘智 K510:RISC-V 雙核 64 位 CPU,支援高清航拍等

嘉楠科技釋出高效能影象及語音處理 AI 晶片勘智 K510:RISC-V 雙核 64 位 CPU,支援高清航拍等

7 月 8 日訊息嘉楠科技正式釋出 AI 晶片勘智 K510。該晶片定位於中高階邊緣推理市場,搭載自主研發 IP 核的升級版本 KPU2.0,採用獨創計算資料流與複用方式,在算力提升 3 倍的同時降低晶片功耗。K510 整合新一代影象處理單元,搭載 3D ISP,支援 TOF 深度攝像頭,以及 2D/3D 降噪、WDR 寬動態、魚眼矯正和硬體 3A 等功能。在應用方面,K510 支援高清視訊會議、高清航拍和機器人等邊緣側場景。

獲悉,官方介紹,K510 在匯流排架構、IP 核心與視訊子系統推出全新設計,相比一代晶片算力提升 3 倍,經典視覺演算法大幅度優化,自研高速 PHY 介面理論頻寬 10GB/s,8 位資料壓縮率 50% 以上,極大優化了勘智 AI 系列在機器視覺場景的應用效能。

匯流排結構是一款 SoC 的主要特徵。為了解決 SoC 匯流排地址空間有限以及晶片受單一時鐘的影響,嘉楠科技在 NoC 匯流排架構中設計了可擴充套件的地址空間,使每個 IP 核工作在特定的時鐘域。

根據相關性,K510 將系統時鐘結構劃分成多個時鐘域,從而解決分狀態時鐘控制問題。把整個系統劃分成多個可支援上下電操作的電源域,從而解決了分割槽域控制能耗問題。

在 ISA 方面,K510 沿用 RISC-V 雙核 64 位 CPU 架構,並集成了數字訊號處理器 DSP 來輔助加速 AI 應用。不同的是,嘉楠科技為 DSP 設計了專用的片上儲存,並且在雙核 CPU 與 DSP 之間加入 mailbox 通訊模組,以實現對系統各部分的靈活排程。

K510 自主研發 IP 核 KPU2.0 融合了嘉楠科技在演算法、軟硬體和編譯器的最新設計,集中突破 AI 晶片設計中廣泛存在的“儲存牆”和“效能牆”的問題。

首先是“儲存牆”,計算過程需要把資料從儲存器搬運到處理器才能進行運算。而儲存器的吞吐效能往往滯後於處理器的效能增長,直接影響了計算效率的提升。嘉楠科技在 KPU2.0 中採用了全域性本地快取設計,通過 SRAM 陣列滿足神經網路中不同層級對內部訪問頻寬和儲存的需求。

其次是“效能牆”,為了提升計算效率,KPU2.0 採用了動態 3D PE 陣列。第三個維度支援多種方式共享傳遞資料,並實現多個維度上的計算對映,提高 PE 陣列的利用率。同時也可以動態開啟或關閉每一個 2D 陣列,並根據不同層級對頻寬和計算資源的需求進行調整。

結合動態 3D PE 計算陣列和靈活的全域性本地訪存設計,嘉楠科技提出的計算資料流,計算卷積不需要進行 im2col(image to column)資料重排,提升計算效率;而通過多級儲存設計,K510 可以增加捲積計算的資料複用,從而減少資料的讀取次數,降低晶片功耗。

同時,KPU2.0 還搭載了可重構的 SIMD 加速單元,通過創新的 meshnet 網路可以靈活配置支援各種啟用函式、pooling 和 resize 等運算元。

K510 搭載的高速 PHY 介面由嘉楠科技自主研發。LPDDR4 支援 32 位雙通道,最高頻率 2700MHz,理論最大頻寬 10GB/s。MIPI D-PHY spec v1.2, 支援 4 通道輸入,每通道峰值速率達 2.5Gbps。

與第一代晶片相比,K510 在幀率和外設方面都有大幅優化。此外,K510 還支援浮點 BF16 計算,在不適合進行模型量化的場景相比同類產品更具優勢。

在外設方面,K510 搭載 MIPI CSI2 和 DVP 介面,可同時支援最多 3 個攝像頭輸入。MIPI CSI 介面支援 1x4 lane 和 2x2 lane 模式,靈活支援各種 MIPI 攝像頭。K510 MIPI 支援 DPHY v1.2 標準,最高速率每 lane 可達 2.5Gbps,支援 RAW, RGB, YUV 等各種流行格式。

K510 內部還集成了 3 個影象處理單元 ISP, 其中一個 ISP 支援 3D 功能,無需軟體參與,直接依靠硬體完成深度資料的提取加工,相比軟體處理深度資訊方式不但節省了巨大的 CPU 開銷,效能上也會有很大提升。

為進一步提高晶片對演算法模型的適配,嘉楠科技在 K510 的編譯器和軟體上聯合優化頻寬需求,對演算法進行量化壓縮。

K510 在設計上針對中間層資料和權重的分佈特性採用不同的壓縮演算法。針對中間層計算資料,利用相鄰資料的相關性進行無失真壓縮,即便 8 位資料的平均壓縮率也能達到 50% 以上,並且基本不損失精度;對權重資料則採用稀疏壓縮,在網路進行稀疏訓練的情況下,壓縮率也可以到 50% 以上。

在軟體方面,K510 支援豐富的網路模型運算元,包括常見的 CNN、RNN 和各類向量計算和資料處理操作。支援裸機、嵌入式 RTOS 和 Linux,並且移植了 OpenCV Python Numpy。同時,K510 支援 TensorFlow、PyTorch、ONNX 和 TVM 等主流深度學習框架,相容性更強。

得益於架構優化和高清 MIPI 的強大配置,K510 支援 2~3 路 2K 顯示和 VPU 影象拼接,以及業內最前沿的 TOF VSLAM 視覺導航技術,快速實現對障礙物的測距和避障,可用於無人機航拍、高清視訊會議和機器人等多個場景。