AIM302L300AI & Machine Learning

하이퍼커넥트의 HyperPod 기반 Slurm on EKS 도입기

일정

Day 2 · AI Day (5/21 목)

시간

12:50 – 13:30

장소

오디토리움(3F)

유형

브레이크아웃 세션

세션 소개

본 세션은 SageMaker HyperPod에서 Slurm 워크플로우를 유지하면서 쿠버네티스의 운영 효율을 확보한 하이퍼커넥트의 Slurm on EKS 도입 사례와 전환 과정의 교훈을 공유합니다. 또한 네트워크 기반 메모리 복제로 2분 내 장애 복구를 실현하고 95% 이상의 Goodput을 유지하는 Checkpointless Training과 Elastic Training 업데이트도 다룹니다.

발표자

  • 오준석

    시니어 솔루션즈 아키텍트 · AWS

  • 현륜식

    솔루션즈 아키텍트 · AWS

  • 윤보현

    머신러닝 S/W 엔지니어 · 하이퍼커넥트

같은 시간대 (9)

같은 트랙