- Oracle은 자사의 Zettascale10 시스템이 16제타플롭스의 최고치를 달성할 수 있다고 주장합니다.
- 이 프로젝트는 데이터 센터 전체에 분산된 약 800,000개의 Nvidia GPU를 사용합니다.
- 텍사스에 있는 OpenAI의 Stargate 클러스터는 Oracle의 새로운 인프라에서 실행됩니다.
오라클은 클라우드에서 가장 큰 AI 슈퍼컴퓨터인 OCI Zettascale10을 발표했습니다.
회사는 이 시스템이 800,000개의 Nvidia GPU에서 16 zettaFLOPS의 최고 성능을 제공할 수 있다고 주장합니다.
이 출력을 분할하면 GPU당 약 20페타플롭에 해당하며, 이는 고급 데스크톱 AI 시스템에 사용되는 Grace Blackwell GB300 Ultra 칩과 대략 일치합니다.
대규모 AI 워크로드를 위한 네트워크 설계
오라클은 이 플랫폼이 텍사스 애빌린에 있는 OpenAI Stargate 클러스터의 기반이라고 밝혔습니다. 이 클러스터는 연구 및 상업적 용도로 새롭게 등장하는 가장 까다로운 AI 워크로드를 처리하기 위해 구축되었습니다.
“확장성이 뛰어난 맞춤형 RoCE 설계는 기가와트 규모에서 패브릭 전체 성능을 극대화합니다…
Zettascale10 시스템의 핵심에는 데이터 집약적인 AI 작업을 위한 확장성과 안정성을 높이도록 설계된 Oracle Acceleron RoCE 네트워킹이 있습니다.
이 아키텍처는 네트워크 인터페이스 카드를 미니 스위치로 사용하여 GPU를 여러 개별 네트워크 평면에 연결합니다.
이 설계의 목적은 GPU 간의 대기 시간을 줄이고 네트워크 경로에 장애가 발생하더라도 작업을 계속할 수 있도록 하는 것입니다.
엔비디아 하이퍼스케일 부사장 이안 벅(Ian Buck)은 “엔비디아 풀스택 AI 인프라를 탑재한 OCI 제타스케일10은 최첨단 AI 연구를 발전시키는 데 필요한 컴퓨팅 패브릭을 제공하고 모든 조직이 실험적 AI에서 산업화된 AI로 전환할 수 있도록 지원한다”고 말했다.
Oracle은 이 프레임워크가 노드 전체에서 일관된 성능을 유지하면서 네트워크 내의 계층을 단순화함으로써 비용을 절감할 수 있다고 주장합니다.
또한 선형 플러그형 및 수신기 광학을 도입하여 대역폭을 줄이지 않고도 전력 및 냉각 소비를 줄입니다.
Oracle의 수치는 인상적이지만 회사는 16 zettaFLOPS 주장에 대한 독립적인 검증을 제공하지 않았습니다.
클라우드 성능 지표는 처리량이 계산되는 방식에 따라 달라질 수 있으며 Oracle의 비교는 지속적인 속도가 아닌 이론적 최고치를 기반으로 할 수 있습니다.
시스템의 광고된 총계가 800,000개의 최고급 GPU의 합과 동일하다는 점을 감안할 때 실제 효율성은 네트워크 설계 및 소프트웨어 최적화에 크게 좌우될 수 있습니다.
분석가는 해당 구성이 다른 주요 클라우드 제공업체에서 운영하는 주요 AI 클러스터와 비슷한 성능을 제공하는지 기다릴 수 있습니다.
Zettascale10은 Oracle을 다른 주요 기업과 함께 최고의 GPU 및 AI 도구 기반 인프라를 제공하도록 자리매김합니다.
회사는 고객이 데이터 주권 시스템이 지원하는 오라클의 분산 클라우드 환경 전반에 걸쳐 대규모 모델을 교육하고 배포할 수 있다고 말했습니다.
Oracle은 또한 Zettascale10이 독립적인 평면 수준 유지 관리를 통해 운영 유연성을 제공하여 다운타임을 최소화하면서 업데이트할 수 있다고 말합니다.
오라클 클라우드 인프라 총괄 부사장인 마헤시 티아가라잔(Mahesh Thiagarajan)은 “OCI Zettascale10을 통해 우리는 OCI의 Oracle Acceleron RoCE 네트워크 아키텍처와 차세대 Nvidia AI 인프라를 결합하여 전례 없는 규모로 수 기가와트의 AI 성능을 제공하고 있습니다.”라고 말했습니다.
“고객은 더 적은 전력을 사용하여 프로덕션에서 가장 큰 AI 모델을 구축, 교육 및 배포할 수 있으며 강력한 데이터 및 AI 주권을 통해 Oracle의 분산 클라우드 전반에서 자유롭게 운영할 수 있습니다…”
그럼에도 불구하고, 관찰자들은 다른 제공업체들이 자체적으로 대규모 GPU 클러스터와 고급 클라우드 스토리지 시스템을 구축하고 있어 오라클의 이점이 축소될 수 있다고 지적합니다.
이 시스템은 내년에 출시될 예정이며, 그 후에야 아키텍처가 확장 가능하고 효율적이며 안정적인 AI 컴퓨팅 요구 사항을 충족할 수 있는지 여부가 분명해집니다.
~을 통해 HPC웨어
Google 뉴스에서 TechRadar 팔로우 그리고 우리를 선호 소스로 추가하세요 귀하의 피드에서 전문가로부터 뉴스, 리뷰, 의견을 받아보세요. 팔로우 버튼을 꼭 눌러주시는 것 잊지 마세요!
그리고 물론 당신은 할 수 있습니다 TikTok에서 TechRadar 팔로우 뉴스, 리뷰, 언박싱, 동영상 등의 형태로 정기적인 업데이트를 받아보세요. 왓츠앱 매우