투자정보
-
남들 보다 한발 빠른 정보로
투자의 길라잡이가 되겠습니다.
-
이코노미스트가 작성한 경제전망 및 이슈리포트와 주간 경제를 게재합니다.
무단전재 및 상업적 재배포하는 행위는 저작권법에 따라 처벌 받을 수 있습니다.
NVIDIA 이더넷 네트워킹, xAI가 구축한 세계 최대 AI 슈퍼컴퓨터 가속화
NVIDIA(NASDAQ:NVDA)는 오늘 테네시주 멤피스에 위치한 xAI의 Colossus 슈퍼컴퓨터 클러스터가 100,000개의 NVIDIA Hopper Tensor Core GPU를 사용하여 이 거대한 규모를 달성했다고 발표했습니다. 이는 표준 기반 이더넷을 사용하는 멀티 테넌트, 하이퍼스케일 AI 팩토리에 우수한 성능을 제공하도록 설계된 NVIDIA Spectrum-X™ 이더넷 네트워킹 플랫폼을 원격 직접 메모리 액세스(RDMA) 네트워크에 사용한 결과입니다.
세계 최대 AI 슈퍼컴퓨터인 Colossus는 xAI의 Grok 대규모 언어 모델 제품군을 훈련하는 데 사용되고 있으며, 챗봇은 X Premium 구독자를 위한 기능으로 제공됩니다. xAI는 Colossus의 규모를 두 배로 늘려 총 200,000개의 NVIDIA Hopper GPU를 사용할 계획입니다.
xAI와 NVIDIA는 이 최첨단 슈퍼컴퓨터와 지원 시설을 단 122일 만에 구축했습니다. 이는 일반적으로 몇 달에서 몇 년이 걸리는 이 규모의 시스템 구축 기간에 비해 매우 짧은 시간입니다. 첫 번째 랙이 설치된 후 19일 만에 훈련이 시작되었습니다.
대규모 Grok 모델을 훈련하는 동안 Colossus는 전례 없는 네트워크 성능을 달성했습니다. 네트워크 패브릭의 모든 3개 계층에서 시스템은 플로우 충돌로 인한 애플리케이션 지연 시간 저하나 패킷 손실이 전혀 없었습니다. Spectrum-X 혼잡 제어 기능을 통해 95%의 데이터 처리량을 유지했습니다.
이 수준의 성능은 표준 이더넷으로는 대규모로 달성할 수 없습니다. 표준 이더넷은 수천 개의 플로우 충돌을 일으키면서 60%의 데이터 처리량만 제공합니다.
NVIDIA의 네트워킹 부문 수석 부사장인 Gilad Shainer는 "AI가 미션 크리티컬해지면서 성능, 보안, 확장성 및 비용 효율성이 더욱 중요해지고 있습니다"라고 말했습니다. "NVIDIA Spectrum-X 이더넷 네트워킹 플랫폼은 xAI와 같은 혁신 기업들에게 AI 워크로드의 더 빠른 처리, 분석 및 실행을 제공하도록 설계되었으며, 이는 AI 솔루션의 개발, 배포 및 시장 출시 시간을 가속화합니다."
Elon Musk는 X에서 "Colossus는 세계에서 가장 강력한 훈련 시스템입니다"라고 말했습니다. "xAI 팀, NVIDIA 그리고 우리의 많은 파트너/공급업체들이 훌륭한 작업을 해냈습니다."
xAI의 대변인은 "xAI는 세계에서 가장 크고 가장 강력한 슈퍼컴퓨터를 구축했습니다"라고 말했습니다. "NVIDIA의 Hopper GPU와 Spectrum-X는 우리가 대규모로 AI 모델 훈련의 경계를 넓힐 수 있게 해주며, 이더넷 표준을 기반으로 초가속화되고 최적화된 AI 팩토리를 만들 수 있게 해줍니다."
Spectrum-X 플랫폼의 핵심은 최대 800Gb/s의 포트 속도를 지원하는 Spectrum SN5600 이더넷 스위치로, Spectrum-4 스위치 ASIC를 기반으로 합니다. xAI는 전례 없는 성능을 위해 Spectrum-X SN5600 스위치와 NVIDIA BlueField-3® SuperNIC를 함께 사용하기로 선택했습니다.
AI를 위한 Spectrum-X 이더넷 네트워킹은 이전에는 InfiniBand에서만 제공되던 고급 기능들을 제공합니다. 이러한 기능들은 높은 효율성과 확장 가능한 대역폭을 제공하며 낮은 지연 시간과 짧은 테일 지연 시간을 실현합니다. 여기에는 NVIDIA Direct Data Placement 기술을 사용한 적응형 라우팅, 혼잡 제어, 향상된 AI 패브릭 가시성 및 성능 격리가 포함됩니다. 이 모든 기능은 멀티 테넌트 생성형 AI 클라우드와 대규모 기업 환경의 핵심 요구 사항입니다.