
今年八月初,NVIDIA獲得了美國國防部下屬國防高級研究規(guī)劃局(DARPA)的2500萬美元??钪С?,用于聯(lián)合Cray、橡樹嶺國家實驗室、六所美國頂尖大學共同研究基于GPU的百億億次(Exascale)高性能計算技術(shù),速度千倍于目前最快的超級計算機系統(tǒng)。很快,NVIDIA>披露了他們的相關(guān)規(guī)劃,項目代號“Echelon”。
NVIDIA架構(gòu)研發(fā)主管Steve Keckler解釋說,Echelon芯片的基本組成單位仍是流處理器(SP),每八個組成一個流式多處理器陣列(SM),雙精度浮點性能大約160GFlops(每秒十億次運算);然后128個SM陣列并排,總計就是1024個=處理器,再輔以八個類似CPU的延遲優(yōu)化核心,共同組成一顆大規(guī)模高性能計算芯片。
按照NVIDIA的設(shè)計,這樣的一顆芯片能夠帶來20.48TFlops(每秒萬億次運算)的雙精度浮點性能,可搭配256GB內(nèi)存,帶寬1.6TB/s。
相比之下,現(xiàn)在的Fermi(費米)架構(gòu)在512個=理器、1544MHz頻率下只有0.79TFlops的雙精度浮點性能,這就意味著Echelon芯片必須實現(xiàn)25倍的浮點性能提升。再加上相應(yīng)原型系統(tǒng)預(yù)計2018-2010年才能問世,其核心架構(gòu)應(yīng)該是下兩代Kepler(開普勒)、Maxwell(麥克斯韋)之后的事兒了。
| |
每顆Echelon芯片可以視為一個節(jié)點,進而四顆組成一個模塊,然后32個模塊再加上路由模塊就組成一個機柜,合計性能高達2.56PFlops(每秒千萬億次運算),內(nèi)存容量32TB、帶寬205TB/s。更進一步,這種機柜還可以繼續(xù)多個并聯(lián),浮點性能自然也是繼續(xù)直線上升。
NVIDIA同時表示,為了降低如此超大規(guī)模芯片的功耗,流處理器必須以不到10皮焦的耗電量處理一次雙精度浮點操作,相當于費米架構(gòu)的二十分之一,同時每個流處理器必須在單個時鐘周期內(nèi)完成四次浮點操作。
更進一步地,NVIDIA計劃在芯片內(nèi)集成1024個可配置的256KB SRAM Bank。如此大容量的片上內(nèi)存能夠盡可能地將數(shù)據(jù)保留在芯片內(nèi)部,距離處理單元也盡可能的近,從而避免非常耗電的拾取操作。這些SRAM Bank既可以配置為通用內(nèi)存池,也可以作為專用緩存。
Echelon現(xiàn)在還只是NVIDIA遠景規(guī)劃圖上的一個設(shè)想,實現(xiàn)起來還有太多難題要解決,不止有硬件設(shè)計上的麻煩,還需要自我感應(yīng)操作系統(tǒng)、自我感應(yīng)運行時、位置感應(yīng)編譯器和調(diào)試器的軟性配合。
有趣的是,美國國防部DARPA也同樣找上了Intel,希望其能夠從傳統(tǒng)CPU的角度出發(fā)l同樣實現(xiàn)百億億次高性能計算。Intel的計劃是利用其正在研發(fā)的超多核心(MIC)架構(gòu),而且已經(jīng)有了測試樣品,甚至會在今年內(nèi)推出相應(yīng)的商用產(chǎn)品,似乎更快一步。
很顯然,這是CPU、GPU之間的一場終極對決。
|
網(wǎng)鈦淘寶店 版權(quán)保護登記號:2013SR057730
閩公網(wǎng)安備35010402351296號 閩ICP備17002817號-2