德國(guó)當(dāng)?shù)貢r(shí)間6月20日,與英特爾宣布第二代至強(qiáng)Phi芯片“KnightsLanding”(以下稱KNL)正式上市同步,浪潮在剛剛舉行的第31屆國(guó)際超算大會(huì)(ISC2016)上,全球首發(fā)基于最新KNL平臺(tái)的深度學(xué)習(xí)計(jì)算框架Caffe-MPI,這標(biāo)志著浪潮稱為全球第一個(gè)在英特爾最新的KNL平臺(tái)上完成Ca
德國(guó)當(dāng)?shù)貢r(shí)間6月20日,與英特爾宣布第二代至強(qiáng)Phi芯片“Knights Landing”(以下稱KNL)正式上市同步,浪潮在剛剛舉行的第31屆國(guó)際超算大會(huì)(ISC2016)上,全球首發(fā)基于最新KNL平臺(tái)的深度學(xué)習(xí)計(jì)算框架Caffe-MPI,這標(biāo)志著浪潮稱為全球第一個(gè)在英特爾最新的KNL平臺(tái)上完成Caffe并行開(kāi)發(fā)的公司。
浪潮集團(tuán)副總裁胡雷鈞表示,此次KNL平臺(tái)Caffe-MPI的發(fā)布,一方面顯示出浪潮與英特爾緊密的合作關(guān)系,另一方面也將為全球深度學(xué)習(xí)用戶帶來(lái)新的協(xié)處理加速解決方案,讓他們可以選擇最貼合自身實(shí)際應(yīng)用的異構(gòu)加速技術(shù)。目前,浪潮推動(dòng)的開(kāi)源Caffe-MPI已受到中國(guó)、印度、美國(guó)等眾多公司和研究機(jī)構(gòu)的關(guān)注。
浪潮Caffe-MPI是全球首款高性能MPI集群版的Caffe深度學(xué)習(xí)計(jì)算框架,其采用成熟的MPI技術(shù)對(duì)Caffe予以數(shù)據(jù)并行的優(yōu)化,其目標(biāo)是解決深度學(xué)習(xí)計(jì)算模型訓(xùn)練的效率問(wèn)題。Caffe是目前最快的深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutional Neural Networks,CNN)架構(gòu),它最早由UC伯克利實(shí)驗(yàn)室完成單機(jī)單卡的開(kāi)發(fā),針對(duì)CNN訓(xùn)練所設(shè)計(jì)。然而隨著訓(xùn)練模型越來(lái)越復(fù)雜、訓(xùn)練數(shù)據(jù)越發(fā)龐大,單機(jī)單卡已經(jīng)不能滿足用戶的實(shí)際需求。
為此,浪潮在伯克利caffe架構(gòu)的基礎(chǔ)上,針對(duì)HPC系統(tǒng)架構(gòu)技術(shù)設(shè)計(jì),率先完成了多機(jī)多卡的并行化開(kāi)發(fā),并完全保留了原始caffe架構(gòu)的特性。浪潮Caffe-MPI硬件系統(tǒng)采用Lustre存儲(chǔ)+IB網(wǎng)絡(luò)+HPC集群,基于Lustre并行存儲(chǔ)采用多進(jìn)程+多線程機(jī)制并行讀取訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)較高的IO吞吐;采用IB網(wǎng)絡(luò)實(shí)現(xiàn)高速互聯(lián)網(wǎng),實(shí)現(xiàn)參數(shù)的快速傳輸和模型更新;采用數(shù)據(jù)并行機(jī)制,利用HPC集群實(shí)現(xiàn)大規(guī)模訓(xùn)練。同時(shí),浪潮Caffe-MPI可以采用多機(jī)多卡同時(shí)訓(xùn)練,并可以部署到大規(guī)模訓(xùn)練平臺(tái)上,實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)樣本的訓(xùn)練。
新一代Xeon Phi處理器Knights Landing既可以做協(xié)處理器,也可以單獨(dú)做中央主處理器,處理器核心數(shù)量超過(guò)72個(gè),并支持四線程,最多擁有288個(gè)線程,雙精度浮點(diǎn)性能超過(guò)3TFlops,單精度則超過(guò)6TFlops,被業(yè)界視為在高性能計(jì)算和深度學(xué)習(xí)領(lǐng)域革命性的產(chǎn)品。隨著此次浪潮率先發(fā)布基于KNL平臺(tái)的Caffe-MPI,相信會(huì)有更多的用戶感受到新技術(shù)在深度學(xué)習(xí)效率上帶來(lái)的諸多提升。