CNS401L400Consulting
EKS LLM 서빙, ElastiCache로 추론 성능 최적화
일정
Day 2 · AI Day (5/21 목)
시간
15:20 – 15:40
유형
라이트닝 토크
세션 소개
Amazon EKS 위에 직접 LLM 서빙을 구축하셨나요? 본 세션에서는 Amazon ElastiCache를 활용해 KV Cache를 재활용함으로써 추론 지연을 줄이고 GPU 처리량을 높이는 캐시 최적화 전략을 소개합니다. 자체 구축한 LLM 혹은 오픈소스 LLM 서빙 환경에서 바로 적용 가능한 성능 개선 아키텍처를 가져가세요.
발표자
- 송
송정우
솔루션즈 아키텍트 · AWS