NVIDIA

DGX A100의 특징을 알아보자 !!

NVIDIA DGX 시리즈 스펙

 

Tesla 카드 비교

 

- DGX A100 소개 

DGX-3는 현존하는 최고 사양의 GPUAmpere를 탑재한 고성능 GPU서버입니다.
기존 DGX시리즈보다 업그레이드된 하드웨어 구성으로 전례없는 트레이닝을 위한 독보적인 컴퓨팅 성능을 확보하였습니다. NVIDIA A100는 다음고 같은 장점이 있다.

 

- CPU
기존 Intel CPU에서 7nm공정의 AMD ROME CPU로 변경되면서 향상된 CPU성능과 더 많은 Core를 사용합니다. PCIe 4.0을 지원함으로써 PCIe3.02배에 달하는 I/O 성능을 제공합니다. (자세한 비교내용은 아래 첨부한 내용 참조 바랍니다)

 

- GPU
DGX A100
에 탑재하는 Ampere카드는 현존하는 최고사양의 GPU카드 입니다. V100대비 더많은 TensorCoreCudaCore를 보유함과 동시에 7nm공정의 아키텍처로 제조되어 전력소모가 감소하였습니다.

 

- 메모리
메모리 슬롯이 증가하여 2TB까지 지원합니다.

 

- 디스크
OS
DATA 디스크 영역에 모두 NVME DISK를 사용했고, 특히 DATA 디스크에는 U.2 NVME Gen4 를 사용하여 더 빠른 I/O를 제공합니다.

 

PCIe 버전별 사양 (PCIe Gen4가 Gen3 대비 약 2배정도 빠름)

 

 

- 네트워크
DGX2
에는 오직 클러스터링을 위한 NIC 100GBMellanox ConnectX-5 VPI를 사용한 반면 DGX A100에선 StorageClustering용도로 사용되는 NIC 모두 200GBMellanox ConnectX-6 VPI HDR를 사용했습니다 

 

 

 

 - 3세대 텐서코어 

기존 FP32 대비 더 낮은 19비트로 구성된 계산단위를 사용한다.

문서상 FP32대비 5배 빠른 성능을 낸다고 한다.

 

- Sparsity

신경망에서 weight 값이 0이나 0에 가까운 값들을 제거하고 학습하여 속도를 향상시켜주는 기능 

 

- MIG (Multi Instance Gpu)

1장의 GPU카드를 쪼개어 다수의 사용자가 사용할 수 있도록 지원하는 기능

실제 MIG을 사용해서 GPU를 나눌땐 GI -> CI순으로 프로파일을 생성한다.

 

SM(Streaming Multiprocessor) : GPU에서 컴퓨터 연산을 작동 시키는 프로세서 

GI(Gpu Instance) : GPU Slice와 GPU Engine의 조합

CI(Compute Instance) : GI는 다수의 CI로 나뉠수 있음

Pratitioning : 5, 10, 20 ,40G 단위로 카드를 파티셔닝하여 사용할 수 있음

 

 

 

 

'NVIDIA' 카테고리의 다른 글

NVIDIA DRIVER 설치 문제 발생시 체크사항(A100 , LAPTOP, WORKSTATION)  (0) 2021.04.23
CUDA 버전별 호환성  (0) 2021.04.07
DGX OS 소개  (0) 2021.04.07
AMD EPYC 7002 시리즈 분석  (0) 2020.09.28