Arm為何明年Q1才釋出AI處理器？

阿新 • • 發佈：2019-02-19

AI熱潮來勢洶洶，即便演算法還不成熟，處理器算力還不足夠，但大部分手機廠商已經讓其旗艦手機使用者或多或少地享受到了所謂的AI功能。其中，蘋果和華為更是用整合NPU的自研處理器增強其手機的AI功能作為一大賣點。有意思的是，無論是手機處理器市場市佔最高的高通還是目前移動裝置處理器IP最重要的提供方Arm，都遲遲沒有推出整合NPU的處理器，這究竟是為什麼？

Arm的AI處理器時間上已經落後？

AI迎來了第三波熱潮，但目前AI晶片受到了更大的關注，其中除了有晶片算力是AI發展的基礎外，AI晶片市場的迅速增長也是一個重要原因。Allied Market Research釋出的一份報告指出，2017年全球機器學習晶片市場規模約24億美元，預計到2025年這一市場規模將達到約378億美元，複合年增長率（CAGR）為40.8％。

因此，我們看到不同型別的AI晶片不斷地被大大小小的公司推向市場。對此，Arm機器學習部門商業與市場副總裁Dennis Laudick接受專訪時表示：“從CPU、GPU發展的歷史看，剛開始市場上會有多種多樣的選擇，但市場最終會收斂和融合，留下最合適的產品。我相信NPU的發展也會遵循同樣的規律。”

640?wx_fmt=png

Arm機器學習部門商業與市場副總裁Dennis Laudick

在眾多新入局AI晶片市場的公司中，值得注意的是以前更加擅長軟體的科技巨頭們都紛紛開始自主研發AI晶片。對此，Cadence執行長、華登國際創始人陳立武此前接受採訪時表示科技巨頭們積極佈局AI是因為他們不希望落後，因為他們有很多資料。Dennis Laudick也發表了自己的看法，他表示：“AI發展中訓練和推理都非常重要，科技巨頭有大量的資料，因此也有包括機器學習在內的許多需求。他們在構建自己AI生態的時候在AI演算法和模型層面更多是依賴學校的研究，因此他們對硬體更感興趣。

”

不過，作為全球最大的IP授權商，也是目前移動處理器IP首要的提供商，Arm直到2018年初才首次公開其ML處理器（Machine Learning Processor）的相關訊息，產品的正式釋出要到明年。這是為什麼？Dennis Laudick說道：“我們一直都在關注AI的進展，在機器學習方面的工作也已經有幾年的時間，最新的Arm Cortex A57/A75/A76都有對機器學習的擴充套件。雖然我們多年來一直致力於機器學習，但這項技術存在一些問題，也不穩定。如資料型別，到底是整數還是浮點數，FP16，FP32，8位整數誰更適合機器學習，針對此現在已經有大量的研究。但要在早期的市場上要提供解決方案就需支援所有的資料型別和模型，而不是優化，這會帶來處理器面積大且耗電的問題，我們需要等待技術的穩定。”

因此，對於想要讓機器學習技術更加簡單易用的Arm而言，方法有兩個，一個是不斷改善現有處理器，另一個就是推出新的神經處理單元（NPU）。在技術還不夠穩定的時候我們看到Arm不斷改進Cortex CPU和Mali GPU，並配合軟體實現AI功能。對於Arm推出NPU的時間點，Dennis Laudick表示：“最近我們已經看到機器學習技術正在穩定和成熟，市場需求也正在不斷增加，我們認為現在是進入市場的最佳時機。”

可以認為，基於Arm在處理器IP市場和整個生態鏈的關鍵地位，推出ML處理器的時間點晚一些不是什麼大問題，更吸引人關注的是Arm的ML處理器到底如何。

Arm明年第一季度推出AI處理器

對於將在2019年第一季度釋出的Arm ML處理器，Dennis Laudick介紹，其定位與現有的Cortex CPU一樣是系列產品，根據市場需求會效能範圍是1-4 TOP/s，匹配不同的CPU滿足手錶、手機、智慧家居、汽車等市場的需求。Arm ML處理器主要有三個部分，一個是MAC引擎，主要執行卷積計算；二是可程式設計引擎，可以支援未來新的運算元和網路；三是資料管理，減少AI計算的耗能。詳情可檢視此文章。

640?wx_fmt=png

他特別指出，Arm在ML處理器的資料管理上做了很多的設計和思考，因為AI的資料搬遷比資料的計算更耗能。他們分析AI處理器中卷積運算所需的能量佔不高，但資料的管理和搬遷可能是運算所需功耗的一百倍。因此他們通過分析技術降低功耗，其中一個技術是資料的壓縮，可以減少資料的搬遷量，另一個是選擇神經網路單元權重啟用或者不啟用，還有就是資料的過濾，用特殊的方法免除不必要的加工。他們希望通過對不同場景的深入分析，儘量做到資料高效、多次使用，減少資料搬遷降低功耗。

640?wx_fmt=png

當然，即便是經驗豐富的Arm，認識到AI處理器最重要的是資料管理也走了一些彎路。Dennis Laudick表示：“Arm有很多種不同型別的處理器技術，當我們第一次看到機器學習時想到的是是否可以從其中的一種處理器開始，因此我們開始用了GPU的方法，但最終發現機器學習處理器面臨的不是處理問題而是資料問題，所以取消了早期GPU的方法，建立了一個全新的處理器專注於資料以及機器學習中的資料型別，可以執行並行指令。”

Dennis Laudick也同時指出，無論是CPU、GPU、FPGA還是ASIC都可以執行機器學習演算法，不同點在於比如實現同樣的人臉解鎖功能，GPU需要的時間少於CPU，而NPU則能夠實現最快的速度和最低的功耗。引人思考的是，Dennis Laudick認為不同型別的AI處理器適用於AI早期市場，機器學習領域市場最終可能是CPU佔80%的市場，NPU佔20%的市場。他認為CPU在不斷改進，而市場上更廣泛的NPU也不斷出現，最終GPU和FPGA將會消失，留下最通用的CPU和最專用的NPU。

不過，在Dennis Laudick看來軟體才是AI處理器中更關鍵的部分。他表示：“Arm的AI處理器是一個異構的系統，其中包含CPU、GPU、NPU等，但作為IP核想要實現更好的可配置性軟體體系非常重要。所以在硬體之上有我們特別優化的Compute Library，它會把底層的硬體和驅動進行充分優化，根據運算元的不同需求驅動硬體，可以提升幾倍到十幾倍的效率。再上一層是Arm nn，可以將TensorFlow、Caffe等神經網路框架轉換成Compute Library可以執行的任務，讓開發者不用關心底層的硬體，只需要使用標準架構進行開發就可以。”

640?wx_fmt=png

至於Arm nn以及Compute Library是如何實現根據需求做機智性的決策充分發揮異構系統的優勢的問題，Dennis Laudick表示，Arm實際上藉助了許多專家的分析，通過跨越團隊的專家團隊分析應用程式和軟體，試圖找到瓶頸和限制，最終保證軟體非常優化。為了讓Arm nn和Compute Library更加優化，Arm也鼓勵硬體架構師和軟體分析團隊緊密合作。

還可以看到，Arm Project Trillium中除了有ML處理器、NN SDK，還有OD（Object Detection，物件檢測）處理器，Arm認為，手機、攝像頭、汽車等都是機器學習中物件檢測的頭號應用，因此物件檢測市場足夠大，值得做一個額外的處理器，特別是針對物體識別。

AI處理器獲勝軟體和資料更關鍵？

需要指出的是，NPU是目前執行機器學習任務效率最高的處理器，但對價格比較敏感的產品，NPU的成本難以承受，只擁有CPU，並且使用CPU處理機器學習就已足夠。因此在物聯網和AI領域，基於RISC-V指令集的CPU也受到了不少的關注，一些人也認為RISC-V處理器未來將會在物聯網智慧終端成為Arm的競爭對手。

640?wx_fmt=png

對此，Dennis Laudick表示：“基於RISC-V指令集的處理器是一個CPU，它並沒有真正與我們的NPU產生競爭，在CPU方面，我們已經進行了兩到三代的機器學習改進，比如支援向量擴充套件，RISC-V也開始實施其中的一些改進，不過這些事情我們已經做過。”

他進一步指出，在機器學習方面，很多晶片公司專注於硬體，與他們有所不同，為了能夠讓每個人都能更好地獲得機器學習，我們最重要的事情就是確保軟體生態系統具有一致的平臺。因為程式開發人員建立一個應用程式是希望其能夠執行在更多裝置上，通過提供一個通用、穩定的軟體平臺，能夠確保我們拓展CPU以提高機器學習的能力。並且我們為市場提供新的硬體功能時，軟體社群也會變得非常有創意。軟體生態系統是Arm成功的關鍵所在，Arm推出良好的處理器是因為軟體生態系統有這樣的需求，這也是Arm過去20年已經做的事情。

為了能夠更好的構建軟體生態，Arm將會選擇與工程師、軟體公司等進行廣泛合作。其中也與Android生態的大公司進行了合作，Arm在中國生態系統中的大公司花費的時間也越來越多。因此，Dennis Laudick認為近兩年的AI熱潮會對於軟體行業帶來革命性的變化，因為傳統的軟體在概率判斷，評估猜測方面有一些侷限性，AI對概率判斷的準確度和猜測的準確度上有其特點，AI也將帶來軟體2.0的時代。

至於許多人都關心的在AI晶片市場中誰將取得最終勝利的問題，Dennis Laudick認為：“AI還處於比較早期的階段，現在判斷誰能勝出為時尚早。不過，全球的大公司都在AI上投入了大量的資金，但有一個巨大的差異是中國的公司更容易獲得資料，也能更輕鬆的使用這些資料，所以我認為在機器學習方面中國的公司在資料方面更具有優勢，但還不知道它將如何發揮作用。”

小結

Dennis作為擁有20餘年移動、汽車與消費電子領域從業經驗的資深人士，對於AI發展有著自己的觀察，對Arm的AI處理器的解讀也讓我們得以更進一步瞭解即將在明年第一季度釋出的Arm ML處理器。在演算法、模型都還不夠穩定的時候，作為提供處理器IP和通用處理器的公司，Arm和高通沒有著急推出NPU，而是通過優化硬體和軟體提升AI效能是一個明智的選擇，畢竟他們與華為和蘋果這樣手機處理器只為自己所用的公司有著巨大的差別。

Dennis反覆提到軟體的重要性，這對於一些AI晶片企業而言或許是一個提醒，畢竟現在已經有越來越多的IC設計公司意識到了AI時代與軟體團隊合作的重要性。那麼，除了硬體和軟體，資料又將如何影響AI晶片市場的競爭？

【推薦閱讀】

輕輕一掃歡迎關注~

640?wx_fmt=jpeg

Arm為何明年Q1才釋出AI處理器？

Arm為何明年Q1才釋出AI處理器？

ARM處理器、X86處理器和AI處理器的區別

臉書VS微軟，為何“老年創業者”更擔憂AI失控？

從童心，到智心：百度、亞馬遜、谷歌、微軟為何都瞄準了兒童AI？

[轉帖]AMD、英特爾為何爭相走向膠水多核處理器？真相在此

O2OA新版本v20181101173308釋出! AI加持，智慧更穩定

聯合國釋出AI報告：自動化和AI對亞洲有巨大影響

Linux 核心新增 AMD 7nm Zen2 架構優化：為明年 Q1 上市準備

1.21.ARM彙編指令集9之協處理器指令

思必馳釋出AI晶片，透視智慧語音企業的商業化歷程

芯原的AI處理器IP被用於下一代大螢幕智慧家居系統級晶片（SoC）

資源 | Intel釋出AI免費系列課程3部曲：機器學習基礎、深度學習基礎以及TensorFlow基礎

每日新聞：英特爾釋出第九代處理器；騰訊與英國公司用AI改善帕金森病；華為申請電池專利；中興為印度提供5G技術；微軟投資Grab...

華為騰訊用戶隱私互懟的背後，AI才是重點！

各ARM開發板 CPU 處理器參數

ARM處理器的工作狀態（轉）

商湯科技：“天地人”三才陣進擊AI頂級巔峰

豹哥嵌入式講堂：ARM知識概要雜輯（3）- Cortex-M處理器功能模塊

豹哥嵌入式講堂：ARM知識概要雜輯（2）- 第一款Cortex-M處理器

豹哥嵌入式講堂：ARM知識概要雜輯（4）- Cortex-M處理器性能指標

Arm為何明年Q1才釋出AI處理器？

相關推薦