芯潮(ID:aichip001)編 | 云鵬
芯潮11月25日消息,日本AI創(chuàng)企Preferred Networks(PFN)在美國科羅拉多州丹佛市舉行的2019全球超級計算大會上展示了定制AI訓練芯片MN-Core,可以在500W的功耗基礎上實現(xiàn)524TFLOPS算力,計算功率效率達到了1.05 TFLOPS / W,超過NV Tesla V100、華為昇騰910等AI芯片的能效比。
PFN成立于2014年,總部位于日本東京,目前已籌集了約1.3億美元,其中日本豐田(Toyota)公司投資了9,660萬美元。PFN主要致力于通過深度學習技術為邊緣和物聯(lián)網(wǎng)提供算力支持。此次展示的MN-Core基于臺積電12nm工藝制造。以下是對WikiChipFuse相關報道的原文編譯。
01、MN系列超級計算機已迭代兩次在全球超級計算機大會中PFN的展位上,我們會見了東京大學名譽教授Kei Hiraki。Hiraki教授一直參與PFN的MN-Core的開發(fā)。Hiraki解釋說,PFN已經(jīng)開發(fā)了一系列專用超級計算機,以加速其自己的應用程序的研發(fā),這些應用程序使用大量的計算能力來進行深度學習。
該公司于2017年推出了首個AI超級計算機MN-1。該系統(tǒng)具有1,024個Nvidia Tesla P100 GPU,可達到1.39 PFLOPS和9.3PFLOPS的峰值計算量。當時,MN-1在工業(yè)超級計算機的TOP500上在日本排名第一,在世界排名第十二。
在2018年7月,PFN通過添加512個額外的Tesla V100 GPU增強了MN-1。較新的系統(tǒng)MN-1b將深度學習(張量)的計算能力提高到56 PFLOPS。
今年早些時候,PFN推出了迄今為止最大的超級計算機MN-2。該系統(tǒng)于2019年7月投入運行,該系統(tǒng)將V100 GPU的數(shù)量增加了一倍,并從PCIe卡切換為SXM2模塊。
▲歷代PFN超級計算機
02、MN-Core兼顧高性能與低功耗PFN下一代超級計算機更加有趣。Hiraki教授解釋說,PFN決定開發(fā)自己的專有深度學習加速器,以實現(xiàn)更高的性能,更重要的是實現(xiàn)更高的電源效率。
他們設計的是500瓦芯片,Hiraki表示這是在可能的冷卻極限內(nèi)進行的。該芯片本身在一個多芯片封裝中包含四個內(nèi)核。內(nèi)核是根據(jù)公司自己的設計,以臺積電12nm工藝制造。
▲MN-Core
在上面的芯片照片中,芯片上刻有單詞“ GRAPE-PFN2”。盡管尚不清楚刻制的原因,但似乎有些體系架構源自GRAPE-DR。還需要指出的是,PFN團隊的成員以前曾在GRAPE-DR物理協(xié)處理器(physics coprocessor)項目中工作,包括Hiraki教授。
MN-Core封裝尺寸比較大,為85*85mm。內(nèi)核面積也非常大,達到756.7mm2。在500 W功耗時,該芯片的算力為524TFLOPS。這為他們提供了1.05 TFLOPS / W的計算功率效率,這正是他們的目標。
該體系結構類似于GRAPE協(xié)處理器(coprocessor)的體系結構。盡管對各個區(qū)塊進行了調(diào)整以用于訓練任務,但各個區(qū)塊的名稱都很相似,并且總體操作非常相似。
MN-Core有DRAM I / F,PICe I / F和4個L2B區(qū)塊。每個L2B中有8個L1B和1個區(qū)塊存儲器(block memory)。一級區(qū)塊包括16個矩陣算術區(qū)塊(MAB)以及其自己的區(qū)塊存儲器。矩陣算術單元(matrix arithmetic units)和4個處理元件(PE)組成一個MAB。每個芯片總共有512個MAB。
各個PE將數(shù)據(jù)傳遞給MAU,PE包含一個ALU并實現(xiàn)了PFN專門使用的許多自定義DL功能。PE的基本數(shù)據(jù)類型操作是16位浮點數(shù),通過組合多個PE可以支持更高精度的操作。
▲MN-Core內(nèi)部架構圖
03、2 EFLOPS算力超算MN-3將使用MN-CoreMN-Core芯片本身位于MN-Core板上,后者是一種PFN設計的基于PCIe的定制加速器板。Hiraki教授表示,芯片功耗為500W,0.55 V,有1000 A電流流經(jīng)電路板,而封裝對設計構成了重大挑戰(zhàn)。
該板本身是x16 PCIe Gen 3.0卡,其中集成了MN-Core芯片,32 GiB內(nèi)存以及定制設計的散熱器和風扇。PFN估計該卡的功耗約為600瓦。
▲搭載MN-Core的板卡
在MN-Core服務器(一個7U機架式機箱)上安裝了四個MN-Core板。每個服務器中都有一個雙插槽CPU。四個板使它們每秒可以達到2 PFLOPS的半精度浮點運算。
▲MN-Core板卡和服務器規(guī)格
PFN計劃在每個機架(rack)上堆疊其4臺服務器。他們的下一代超級計算機MN-3將基于MN-Core。
▲MN-3超算概念圖
PFN目前沒有出售這種芯片的計劃。MN-Core芯片和他們的超級計算機將專門用于自己的研發(fā)。
PFN預計MN-3擁有約300個機架,可用于4800個MN-Core板。這相當于每秒2 EFLOPS的算力。在功耗方面,PFN估計該機器的功率為3.36 MW,對于這種性能而言這是非常低的。例如,擁有1.88 EFLOPS算力的IBM Summit超級計算機功率為13MW。MN-3計劃于2020年投入運營。
目前Google和Amazon等超大規(guī)模用戶(hyperscalers)為自己的云服務器開發(fā)了自定義神經(jīng)處理器(custom neural processors)。類似的趨勢正在行業(yè)中出現(xiàn),諸如Preferred Networks之類的公司設計了自己的NPU。
他們的目的都是相同的——通過設計和研發(fā)自己芯片,以便擁有獨特的,與眾不同的技術優(yōu)勢。目前,只有少數(shù)幾家AI硬件初創(chuàng)公司推出了AI推理芯片,而沒有一家初創(chuàng)公司交付AI訓練芯片。這種專業(yè)訓練芯片的缺乏,給可以制造超越當前頂級訓練GPU能效比的AI芯片的公司帶來了獨特的機遇。
隨著越來越多的企業(yè)進入AI訓練芯片領域,整個市場格局可能將會發(fā)生變化。
結語:AI芯片自研——掌握技術優(yōu)勢的核心此次PFN推出的MN-Core AI訓練芯片,無論在絕對算力還是能效比方面都處于全球領先行列,不過該公司準備將這項成果掌握在自己手中,用于后續(xù)研發(fā),之后是否會商用還未表態(tài)。
提高芯片的算力和深度學習推理能力是當下的大趨勢,MN-Core的推出豐富了當下相對匱乏的AI訓練芯片市場,為大規(guī)模超算提供了一種新的解決方案。
無論是谷歌、華為、英偉達、英特爾,都將自研AI芯片作為重點發(fā)力方向之一,唯有掌握“核心”,才能掌握核心技術優(yōu)勢。AI芯片算力市場,亟待更多新力量加入。
原文來自:WikiChipFuse