gpu服務(wù)器有哪些分類呢?GPU擅長(zhǎng)處理大規(guī)模深度合作學(xué)習(xí)能力訓(xùn)練方法以及其他部分典型HPC任務(wù)。經(jīng)常有朋友在咨詢公司如何有效配置可以用于深度學(xué)習(xí)或計(jì)算加速的GPU服務(wù)器,今天我們就來(lái)看看吧!
GPU服務(wù)器分類:
首先介紹下常見(jiàn)的GPU和GPU服務(wù)器。以NVIDIA Tesla系列GPU為例,按總線數(shù)據(jù)接口不同類型企業(yè)可以發(fā)展分為NV-Link接口技術(shù)以及國(guó)內(nèi)傳統(tǒng)PCI-e總線進(jìn)行兩種。
1、Nv-link接口類型的gpu:典型的代表是NVIDIA V100,使用SXM2接口,DGX-2的接口SXM3。
2、NV-Link總線技術(shù)標(biāo)準(zhǔn)的GPU服務(wù)器
DGX是由NVIDIA設(shè)計(jì)的超級(jí)計(jì)算機(jī)的典型代表。DGX超級(jí)計(jì)算機(jī)不僅提供硬件,以及相關(guān)的軟件和服務(wù)。
3、傳統(tǒng)PCI-e總線數(shù)據(jù)接口的GPU
NVIDIA特斯拉GPU加速對(duì)主流專業(yè)計(jì)算主要是:P4/P40(P指的是前一代PASCAL架構(gòu)的開(kāi)頭),P100,V100和圖靈架構(gòu)特斯拉T4那些段落。且其中只有薄薄槽P4和T4,常用推理,現(xiàn)在有成熟的識(shí)別模型和推理。
4、傳統(tǒng)的pci-e總線gpu服務(wù)器分為兩類:
(1)OEM服務(wù)器:通過(guò)NVIDIA官方的測(cè)試和制造商的認(rèn)證。比如,廣泛的技術(shù)不僅NVIDIA的合作伙伴,已成為公司加快NVIDIA潛在的AI計(jì)劃成員;
(2)非OEM服務(wù)器,也包括企業(yè)很多不同種類
選擇的基本原則:選擇GPU服務(wù)器時(shí)首先要進(jìn)行考慮企業(yè)業(yè)務(wù)發(fā)展需求來(lái)選擇一個(gè)適合的GPU型號(hào)。在HPC高性能數(shù)據(jù)計(jì)算中還需我們要根據(jù)不同精度來(lái)選擇,比如他們有的高性能計(jì)算方法需要雙精度,這時(shí)如果可以使用P40或者P4就不合適,只能通過(guò)使用V100或者P100,同時(shí)也會(huì)對(duì)顯存容量有要求,比如石油或石化勘探類的計(jì)算技術(shù)應(yīng)用對(duì)顯存要求比較高,還有些對(duì)總線控制標(biāo)準(zhǔn)有要求,因此本文選擇GPU型號(hào)要先看業(yè)務(wù)市場(chǎng)需求。
GPU服務(wù)器人工智能領(lǐng)域應(yīng)用也較多。GPU虛擬化在場(chǎng)景中要求更高。根據(jù)數(shù)量,需要將GPU服務(wù)器虛擬出30或60個(gè)虛擬GPU,因此批量培訓(xùn)需要GPU,通常使用V100進(jìn)行GPU培訓(xùn)。模型訓(xùn)練需要推理,所以推理一般采用P4或T4,少數(shù)情況為V100。