1. 程式人生 > 其它 >自動駕駛網路大學課程W8L2 ML硬體架構II

自動駕駛網路大學課程W8L2 ML硬體架構II

第一個Week 8的第二堂課 Week 8 Lesson 2, 後面還有第二個Week 8.

本節課程的材料是一篇關於Google TPU的介紹性文章,從DNN的計算需求、程式碼量、計算優化的介紹開始,接著介紹了TPU的起源、架構和具體實現。詳細介紹了TPU的結構框圖和晶片佈局設計。

從TPU的架構框圖看,輸入輸出介面是Gen3 X16的PCIe介面,通過Buffer連線到計算核心Matrix Multiply Unit上,計算的結果輸出給一個累積器Accumulators中,然後再經過系統Buffer和PCIe介面輸出給Host。

文章比較了TPU晶片的效能功耗比相對於GPU和CPU的優勢,並將這種顯著的優勢歸因於以下幾個方面:

1)單核單執行緒模型,便於滿足固定時延的要求。

2)TPU採用了二維大矩陣乘法單元的設計,效能遠超CPU/GPU的多個一維乘法器單元。

3)Systolic Unit(收縮單元?)二維矩陣設計,減少暫存器訪問。

4)採用8bit整形數設計。

5)去掉了CPU/GPU中對於DNN計算不需要的功能,簡化了設計。

TPU晶片的出現,是人類計算機技術發展的一個里程碑,大大地推動了異構計算的發展。

文章配圖裡面每顆TPU晶片表面的水冷散熱設計很漂亮,工程設計的完美展示。