전체 글

    NVIDIA DRIVER 설치 문제 발생시 체크사항(A100 , LAPTOP, WORKSTATION)

    오늘 이야기 드릴 내용은 A100카드를 장착한 장비에 NVIDIA DRIVER가 정상 설치 안될 경우 확인해야할 체크사항 입니다. 1. NVIDIA 드라이버 아래 표와 같이 Ampere카드는 450.36.06+ 드라이버를 설치해야 합니다 2. Kernel Version 드라이버를 설치할 때 꼭 확인해야할 것중 하나가 바로 커널 버전입니다. ubuntu 기준 지원하고 있는 커널버전은 5.4.x 입니다. ubuntu os 최신버전을(20.04.2) 설치하면 기본적으로 5.8.x 커널이 설치되어 있습니다. 따라서 20.04.2 보다 아래 버전의 OS를 설치하거나 커널버전을 수동으로 다운그레이드 해야 합니다. (ubuntu 에서 " apt upgrade " 입력시 자동으로 커널버전을 최신으로 업데이트 하기 때문..

    Prometheus Operator 설치 및 google 이메일로 alert 보내기

    Prometheus Operator란? (현재는 kube-prometheus-stack으로 이름을 변경함) 쿠버네티스 CRD를 사용해 배포와 설정관리를 쉽게 만든 버전이다. prometheus, alertmanager, monitoring기능이 포함되어 있다. Prometheus operator설정과 rule수정을 통해 google 메일로 알림을 받아볼수 있도록 설정해보자 CRD를 통해 관리되는 리소스 Prometheus : 파드 Alertmanager : 파드 ThanosRuler : 파드 ServiceMonitor : 어떤 방식으로 클러스터를 모니터링할지 명시 PodMonitor : 어떤 방식으로 파드를 모니터링할지 명시 Prebe : 어떤 방식으로 ingress타겟을 모니터링할지 명시 Prometh..

    CUDA 버전별 호환성

    CUDA - CUDA는 GPU 컴퓨팅을 위한 개발툴 - 병렬 컴퓨팅 아키텍처 - GPU를 활용해 일반적인 연산을 하는 GPGPU(General-Purpose Computing on GPU) : GPU가 그래픽처리가 아닌 일반적인 연산을 한다는 개념 도입 예전에는 GPU를 활용한 프로그래밍이 많이 힘들었습니다. NVIDIA는 그래픽처리에 국한되어있던 GPU를 범용프로그래밍(GPGPU)에도 사용될수 있도록 CUDA(Computed Unified Device Architecture)라는 GPU컴퓨팅 개발툴을 2006년도에 발표하였다. 이로서 개발자는 C/C++에서 CUDA가 제공하는 "GPU가속화라이브러리, 디버깅 및 최적화 툴, 컴파일러, CUDA런타임" 을 활용하여 연산 집약적인 코드 부분을 GPU에서 실..

    DGX OS 소개

    NVIDIA는 DGX장비의 성능을 십분 발휘하기 위해 커스터마이징한 운영체제를 제공하고 있습니다. 해당 OS에는 진단툴, 모니터링, 드라이버 등 다양한 기능을 포함하고 있고, 현재 5.X 버전까지 출시되어 있습니다. ( DGX Supported OS : CentOS, Redhat, Ubuntu ) DGX OS 버전은 5.X 와 4.X 버전까지 출시되어 있고, 최근 출시한 5.X버전은 DGX Station과 DGX1,2,A100 장비 모두 사용가능한 단일 OS형태 입니다. OS 이미지는 NVIDIA ENTERPRISE PORTAL에서 다운받을수 있습니다. 여담으로 DGX장비가 아닌 서버에 DGX OS설치를 시도해봤는데 실패했습니다. OS를 설치할 때 장비마다 부여된 고유한 시리얼값을 참조해서 설치하기 때문..