
안녕하세요, 리키입니다. 오늘은 엔비디아의 베라 루빈 플랫폼이 에이전틱 인공지능(Agentic AI)이 겪는 스케일업 문제를 어떻게 해결하는지에 대해 이야기해 보려고 합니다.
에이전틱 추론은 AI 에이전트가 과제를 수행하면서 만들어내는 행동, 관찰, 의사결정 과정을 의미합니다. 이 추론 과정이 누적되면 엔드 투 엔드 지연이 비례해서 늘어난다는 점이 중요합니다. 특히 롱 컨텍스트 윈도우를 가진 1조 파라미터 규모의 모에(MoE) 모델에서 지속적인 저지연과 높은 처리량을 동시에 요구하는 것이 신흥 멀티 에이전트 워크로드의 가장 까다로운 과제입니다.
이러한 까다로운 요구사항을 경제적으로 서비스했던 플랫폼은 없었습니다. 그래서 엔비디아는 베라 루빈 플랫폼과 그 핵심 컴퓨트 엔진인 엔비디아 그록 3 엘피엑스(Groq 3 LPX)를 결합하여 고처리량과 저지연을 동시에 달성한 최초의 사례를 만들었습니다. 이는 하드웨어와 소프트웨어를 공동으로 설계하는 극단적인 공동 설계(extreme co-design)를 통해 이루어졌습니다.
에이전틱 워크로드의 네트워킹 요구사항
에이전틱 워크로드는 기존 데이터 센터 환경과는 다른 네트워킹 요구사항을 제시합니다. 프리미엄 AI 서비스는 단순히 대규모 학습이 아니라, 멀티 턴 모델 요청, 소규모 배치 처리, 그리고 극저지연을 요구합니다. 각 에이전트가 보유한 키-값 캐시(KV 캐시)와 새로 생성되는 토큰들을 수많은 전문가 모듈(expert)로 분산된 가속기에 라우팅해야 하는데, 이때 칩 간의 이동(홉, hop) 변동을 최소화하는 네트워크 레벨 오케스트레이션이 필수적입니다.
기존의 방식들은 흐름 제어를 사후 반응형으로 하거나, 메모리 집적을 통해 일시적으로 지연을 늦추는 방식이었습니다. 하지만 모델 크기와 컨텍스트 윈도우가 확장될수록 멀티칩 성능 저하라는 문제가 다시 발생했죠. 따라서 업계는 네트워킹 패브릭을 실리콘, 컴파일러, 서빙 스택과 통합 설계해야 한다는 결론에 도달했습니다.
엔비디아는 이 문제를 해결하기 위해 LPU C2C(칩 간 통신)를 하드웨어와 소프트웨어 공동 설계를 통해 설계했습니다. 이 LPU C2C는 인터커넥트를 단순한 네트워크가 아닌, 결정적 실행 모델을 다수의 LPU 전반으로 확장하도록 설계되었습니다. 고밀도 포인트 투 포인트 링크, 컴파일러 기반 데이터 이동 스케줄링, 그리고 하드웨어 기반 준동기 타이밍이라는 세 가지 기술이 유기적으로 결합하여 예측 가능한 통신과 고정 지연을 유지하며 수천 개의 칩 규모로 확장할 수 있게 된 것입니다.
'뉴스와 정보' 카테고리의 다른 글
| 챗GPT 프로 2만 9천원 대란 환불 시작 (0) | 2026.05.23 |
|---|---|
| 테슬라, 중국에 자율주행 서비스 확대 (0) | 2026.05.23 |
| LLM 비용 폭탄 90% 절감한 삽질기 (0) | 2026.05.23 |
| 아이비스 AI 차량 인포테인먼트 시스템 개발 참여 (0) | 2026.05.23 |
| 피지컬 AI 산업 전망 컨퍼런스 성료 (0) | 2026.05.23 |
