Intel Fellow:人工智慧與高效能運算將走向融合
作為Intel公司的Fellow,Alan Gara表示隨著神經形態計算、量子計算等新型計算、儲存、通訊技術快速推動百億億次計算成為現實,人工智慧與高效能運算將走向融合。
英特爾資料中心事業部的Fellow艾倫·加拉(Al Gara)表示,隨著我們使用新的計算、儲存和通訊技術以及神經形態晶片和量子計算晶片向百億億級未來過渡,高效能運算和人工智慧之間的關聯將會越來越緊密。加拉認為,“人工智慧(AI)、資料分析和傳統模擬的融合將帶來具有更廣泛功能和可配置性以及交叉授粉(cross pollination)特質的系統。”
加拉為這一高效能運算(HPC)和人工智慧交織的未來設定了十分具有挑戰性的硬體目標。在這一未來中,硬體會提供百億億次以上的雙精度使用效能,且會在減少精度運算的情況下提供更高的效能。他相信,如果使用者將重點放在單位記憶體容量的計算效能上,那麼使用者將跨各種架構獲得豐厚回報,併為系統軟體和使用者應用程式提供通過百億億級及更高級別計算保持指數級效能增長的機會。
1.“三大支柱”的統一
加拉提出的願景基於高效能運算“三大支柱”的統一:人工智慧(AI)和機器學習(ML);資料分析和大資料;以及高效能運算(HPC)。這意味著未來的使用者會使用互相利用並通過記憶體互動的模型進行程式設計。
具體而言,英特爾正在努力研究高度可配置的百億億級系統,該系統可支援到全新技術的升級,其中包括可擴充套件處理器、加速器、神經網路處理器、神經形態晶片、FPGA、英特爾持久記憶體、3D NAND和自定義硬體。
加拉的願景有一個共同特徵,那就是同一架構會通過配置涵蓋高效能運算、人工智慧和資料分析,這意味著這些不同的硬體後端需要擁有一致的軟體環境來處理高效能運算和人工智慧工作負載。
目前,加拉的願景有一個非常實際的例項,即在TensorFlow等熱門機器學習軟體包中使用Intel nGraphT庫。從本質上來說,Intel nGraph庫被用作中間語言(類似於LLVM),可在從CPU到FPGA、專用神經網路處理器等各種硬體平臺上提供優化的效能。
英特爾人工智慧產品事業部首席技術官辦公室的傑森·奈特(Jason Knight)如是寫道,“我們將Intel nGraph庫視為由流行深度學習框架的優化通道(optimization pass)、硬體後端和前端聯結器構成的生態系統的開端。”
整體而言,加拉指出“高效能運算實際上是許多架構的發源地…和測試環境”,因為高效能運算程式設計人員、研究人員和領域科學家通過探索架構空間描繪出瞭如下效能格局:
資料級別並行(從細粒度到粗粒度)
節能加速器(計算密度和能源效率通常是相關的)
在所有級別利用可預測的執行(快取到粗粒度)
整合的固定功能資料流加速器
通用資料流加速器
2.技術機遇
高效能運算和人工智慧科學家將有機會獲得並能夠利用許多新網路、儲存和計算架構的效能功能。
其中,高效能運算是光學技術的重大驅動因素,這是因為光纖是超級計算機最具挑戰性且成本最高昂的要素之一。出於此原因,加拉認為,隨著我們過渡到線性裝置和環形裝置以及使用不同波長的光進行通訊的光學裝置,矽基光子學將產生顛覆性影響,整合矽基裝置或光學裝置的能力將帶來巨大的經濟和效能優勢,包括增長空間(從技術角度而言)。
新的非易失性儲存技術(例如英特爾持久記憶體)正在模糊記憶體和儲存之間的界線。加拉描述了一種用於百億億級超級計算機的新儲存堆疊,當然,此類堆疊也可在通用計算叢集中實施。
加拉評論道,關鍵在於此類堆疊是為了使用NVM儲存而重新設計的。這會帶來與任意對齊和事務大小相關的高吞吐IO操作,因為應用程式可通過新的使用者空間NVMe/pmem軟體堆疊執行超細粒度IO。在系統級別,這意味著使用者將能夠在軟體託管的自我修復型冗餘環境中使用可擴充套件的通訊和IO操作跨同源、無共享伺服器管理大規模分散式NVM儲存。換而言之,高效能、大容量的可擴充套件儲存能夠支援大資料和核心內演算法以及針對稀疏及非結構化資料集的資料分析。
科研人員正在利用記憶體效能和容量方面的進步來改變我們處理人工智慧和高效能運算問題的方法。美國猶他大學(University of Uta)和沙烏地阿拉伯阿卜杜拉國王科技大學(King Abdullah University of Science and Technology,KAUST)都在做這方面的工作。
例如,猶他大學的科研人員強調了對數執行時演算法在Ospray視覺化軟體包中的重要性。對數執行時演算法對於大型視覺化和百億億級計算而言十分重要。執行時基本上隨資料規模的增長而緩慢增長。但即使資料規模呈數量級增長,執行時的增長仍然會十分緩慢,因而對數增長十分重要。否則,執行時增長會阻止計算在合理的時間內完成,從而讓大記憶體容量計算機的優勢消失殆盡。
因此,提供低延遲資料訪問的大記憶體容量計算節點成為能夠在博弈中與大規模並行加速器競爭並獲勝的使能技術。猶他大學的研究表明,相較擁有128個節點的GPU叢集而言,單一大記憶體(三萬億位元組)工作站可提供具有競爭力,甚至更加優秀的互動式渲染效能。猶他大學的研究小組還在使用P-k-d樹和其他快速核心內方法探索原位視覺化(in-situ visualization),以展示大型“直接”核心內技術是傳統高效能運算視覺化方法的可行替代方案。
在第二個示例中,KAUST一直在與英特爾和東京工業大學(Tokyo Institute of Technology)協作,增強用於多核心(multi-core)和許多核心(many-core)處理器的數值工具生態系統。想象一下使用CPU技術以在數學和計算方面都高效的方式處理十億乘以十億的超大規模矩陣會是什麼樣子。
非高效能運算科學家十分認可線性代數和快速多級方法(Fast Multi-pole Methods,FMM)中這些貢獻的重要性,因為數值線性代數是工程、物理、資料科學和機器學習領域中幾乎所有應用的根源所在。FMM方法已被列為二十世紀十大演算法之一。
結果表明,相較使用目前在相同硬體上執行的英特爾數學核心函式庫(Intel Math Kernel Library,Intel MKL)等經過高度優化的庫,高效能運算科學家現在能夠以更快的速度解決更大的密集線性代數問題和FMM相關數值問題。這些方法已在名為ExaFMM和HiCMA的經過高度優化的庫中提供。
3.展望未來:神經形態計算和量子計算
代號為“Loihi”的新神經形態測試晶片可能能夠代表人工智慧領域的相變,因為它們能夠“自學”。目前,資料科學家花費了大量時間處理相關資料,以建立用於訓練神經網路解決複雜問題的訓練資料集。神經形態晶片讓人們不再需要建立訓練資料集(例如,整個過程無人類的干涉)。相反,人類需要在神經形態硬體發現解決方案後驗證其準確性。
簡單說來,神經形態計算利用與機器學習和深度學習領域中使用的傳統神經網路完全不同的計算模型。此模型可更準確地模仿生物大腦的執行,因此,神經形態晶片只需通過觀察其所處的環境就能以事件驅動的方式“學習”。此外,它們的執行方式非常節能。時間將告訴我們這是否能夠以及何時能夠帶來優勢。好訊息是,神經形態硬體現在已經進入市場。
加拉表示,目標在於建立在當前架構下提供100倍以上能源效率的可程式設計架構,從而更加高效地解決人工智慧疑難問題。他提供了稀疏編碼、字典學習、約束補償(constraint satisfaction)、模式匹配以及動態學習和適應等示例。
最後,加拉介紹了量子計算領域取得的進步,這是通過與荷蘭代爾夫特理工大學(Delft University)協作實現的。這項協作旨在生成更好的Qubit(量子位元)、增強Qubit之間的關聯以及開發可擴充套件的IO。量子計算是非直觀的,因為大多數人無法直觀地理解糾纏的概念或同時處於多個狀態的物質。但是,網路上仍然有加拿大滑鐵盧大學(University of Waterloo)的《量子計算101》(Quantum Computing 101)等優秀資源,可幫助人們瞭解這一快速進步的技術。如果成為現實,這項技術將永遠改變我們的計算世界。
量子計算使得解決目前對於普通計算機而言棘手的問題成為可能。加拉重點介紹了英特爾的量子計算工作目前在量子化學、微型架構和演算法協同設計,以及後量子安全密碼方面的應用。
4.總結
現在,新的計算、儲存和製造技術不斷湧現,這讓人工智慧和高效能運算社群不得不重新思考其傳統方法,以便能夠使用這些比以往效能更高的可擴充套件且可配置的架構。艾倫·加拉指出,技術正在推動“三大支柱”的統一,這也會反過來讓人工智慧和資料中心內高效能運算的未來無法區分開來。