“The more you buy, the more revenue you get.” (더 많이 살수록, 더 많은 매출을 얻게 될 겁니다.) 지난달 18일(현지 시간) 미국 캘리포니아주 새너제이 SAP센터. 전 세계에서 온 개발자, 파트너사 관계자 등 2만 5000여 명이 지켜보는 가운데 어김없이 트레이드마크인 가죽 재킷을 입고 나타난 젠슨황 엔비디아 최고경영자(CEO)는 이같이 선언했다. 불과 일 년 전 같은 자리에서 열린 ‘GTC 2024’에서 두 시간 넘게 좌중을 휘어잡으며 록스타다운 면모를 보였던 젠슨황은 이번 기조연설에서는 시시각각 변화했다. 각 모델별로 활용되는 토큰 수를 직접 계산할 때는 GTC는 수학을 견뎌야하는 자리라며 ‘젠슨 교수’의 엄격함을 보였다가 ‘광 트랜시버’를 직접 들고 나와 일일이 서버 랙의 부품을 꺼내보며 설명할 때는 ‘괴짜 개발자’와 ‘판매왕’을 자유자재로 오갔다. 이번에도 전체 타임라인은 별도의 스크립트와 리허설 없이 젠슨황의 머릿속 대본으로 진행됐다는 후문이다.
AI인프라 회사로의 전환과 엔비디아 시간표 지난해 GTC 2024에서 블랙웰 시리즈를 공개하면서 엄청난 관심을 모았을 때와 비교하면 2000달러짜리 광고를 보러 갔다는 일부 평가도 있다. 오히려 이는 많은 이들이 나날이 확고해지는 엔비디아의 ‘기술 리더십’에 익숙해지고 있다는 신호로도 읽힌다. 이번에 젠슨황은 2015년 모바일 시장에서 철수하며 AI, 로보틱스 부문으로 선회하겠다고 회사의 정체성 전환을 천명한 이후 10년 만에 엔비디아가 AI 인프라 회사로 전환하겠다는 것을 분명히 했다. “우리는 더 이상 칩만 만드는 회사가 아닙니다. 그것은 옛날이야기죠. 이제 우리는 한 번에 수백억 달러 규모로 배치되는 AI 인프라스트럭처를 구축합니다.” 엔비디아의 소식을 관심 있게 지켜보는 이들이라면 AI 인프라 회사라는 점이 새삼스럽다는 반응도 나올 수 있다. 여기서 관건은 이 같은 공식화가 어떤 시점에 이뤄졌느냐는 점이다. 엔비디아는 기존에도 새로운 비전을 단숨에 공개하기보다는 시간에 걸쳐 자연스럽게 노출시키며 ‘빌드업’하는 문화에 강점이 있다. 완벽한 ‘서프라이즈’보다는 대중의 인식에 천천히 쌓이게 한 뒤 특별한 모멘텀을 만들어 ‘익숙함 중 낯설게 하기’로 재정의를 시도하는 쪽에 가깝다. 지난 1월 CES 2025에서 공개한 ‘물리 AI(Physical AI)’ 개념도 엔비디아 특유의 메타버스 솔루션인 ‘옴니버스’와 로보틱스 솔루션을 오랫동안 고도화한 뒤 정의를 새롭게 한 쪽에 가깝다. AI 인프라 회사는 고객사들에게 ‘AI 공장’의 모든 인프라를 제공하고 이를 통해 AI 공장을 더 많이 구축할수록 더 많은 수익을 내도록 하겠다는 것을 최우선 순위로 삼는다. 엔비디아가 이 기조를 뚜렷하게 할 수 있다는 것은 실제로 더 많은 수익을 보장할 수 있다는 어떤 변곡점에 섰다는 것을 의미한다. 특히 AI 인프라 회사로서의 본질은 고객사가 AI 인프라 설계를 중장기적으로 계획할 수 있도록 예측 불가능성을 낮춰주는 게 중요한 부분이기 때문에 엔비디아는 특유의 시간표인 ‘엔비디아 시간표(Nvidia Schedule)’을 이번에도 제시했다. 블랙웰 울트라를 비롯해 내년부터 양산 예정인 베라 루빈과 베라 루빈 울트라(2027년)에 이어 2028년 양산할 차세대 시리즈인 파인만 아키텍처까지 공개한 것이다. 젠슨황은 이같이 보탰다. “우리는 역사상 최초로 4세대에 걸친 로드맵을 한 번에 발표한 기술 회사입니다. 스마트폰 시대로 치면 앞으로 4년간 나올 라인업을 한 번에 발표한 것과 같습니다. 말이 안 돼 보이지만 우리가 그렇게 한 이유는 AI 인프라 회사이기 때문입니다.” 더 이상 사람들이 차세대 아키텍처에 대한 힌트에 격한 반응을 보이지 않고 오히려 이 시간표를 지키지 못했을 때 더 많은 후폭풍을 감당해야 하더라도 엔비디아는 시간표를 내건다. 이는 스스로 절대적 1위의 상황에서도 ‘기술 리더십’을 지켜가는 방식이다. ‘패스트 팔로워’로 삼을 상대조차 불분명한 상황에서 엔비디아 구성원에게 계속해서 절대 속도를 주문하며 동기 부여를 하는 방식이기도 하다.
효자 제품 호퍼의 숨통을 스스로 끊다 ‘더 많이 살수록, 더 많이 벌 수 있다’는 완전히 새로운 말은 아니다. 젠슨황은 2018년 열린 ‘GTC 2018’에서도 쿼드로 GV100 GPU와 결합된 엔비디아 RTX를 공개하면서 “더 많이 살수록, 더 많이 아끼게 될 것(The more you buy, the more you save)”이라고 강조한 바 있다. 이는 레딧 등 일부 커뮤니티에서는 ‘엔비디아의 강박(Obsession)’이라며 판매 전략에 불과하다며 희화화하는 뉘앙스로도 종종 언급되기도 했다. 하지만 이번에는 달랐다. 젠슨황이 보여주는 제품 성능 향상의 로드맵이 너무나도 뚜렷했기 때문이다. 이를 확인하듯 그는 뼈 있는 농담도 던졌다. “저는 이전에도 블랙웰이 본격적으로 대량 출하되기 시작하면 (전작인) 호퍼는 거저 준다고 해도 아무도 원하지 않을 것이라고 말한 적 있습니다.” 좌중이 출렁였다. 호퍼 아키텍처 기반의 H100, H200 시리즈는 엔비디아에게 어떤 존재인가. 2022년 말 이후 챗GPT발 생성형 인공지능(AI) 붐이 전 세계를 휩쓰는 동안 엔비디아의 오랜 효자 상품이었고 대기 고객만 2년치가 쌓여있을 정도였다. 하지만 과감히 호퍼의 ‘시장에서의 수명’을 스스로 끊기로 한 건 경쟁사도 아닌 엔비디아였다. 자체적으로 ‘카니발라이제이션(자기 시장 잠식)’의 제물을 호퍼 시리즈로 삼은 것이었다. 실제로 이날 젠슨황이 공개한 아키텍처별 성능 비교에 따르면 호퍼 시리즈에서 블랙웰 시리즈로 넘어갈 때 고객사들이 경험할 수 있는 성능 차이는 68배, 차세대 시리즈인 루빈 시리즈로 전환할 때의 성능 차이는 900배에 달한다. 불과 2세대 사이에 900배의 성능 차이를 낼 수 있게 됐다는 사실에 참석자들은 놀라움을 감추지 못했다. 동시에 성능당 비용은 루빈 시리즈에서는 호퍼 시리즈 대비 87%까지 줄일 수 있다고 언급했다. 동시에 젠슨황은 올 초 딥시크 추론 모델의 등장으로 많은 이들이 엔비디아 성장성을 의심하면서 하루아침에 5890억 달러(약 846조 원)이 증발한 것에 대해서도 정면 돌파를 했다. 지금까지 거대 언어 모델(LLM) 기반 학습 모델과 달리 추론 모델의 경우 새로운 스케일링의 법칙이 적용되기 시작했다는 것. 추론 모델이 오히려 더 많은 토큰 수와 AI 인프라를 필요로 한다고 밝힌 것이다. 기존에 AI 지능은 학습한 데이터의 양과 비례한다고 여겨졌으나 이제는 더 많은 연산처리에 비례하는 ‘테스트 타임 스케일링의 법칙’으로 흐름이 바뀌고 있다고 새로운 논리를 들고나왔다. 메타의 ‘라마(Llama)’ 등 전통적인 LLM 모델의 경우 연산을 처리할 때 439개의 토큰을 썼다면 딥시크의 추론 모델 R1은 20배에 달하는 8559개의 토큰을 쓰는 과정을 시연하면서 이 과정에서 컴퓨팅 파워는 150배가 더 필요해졌다고 밝혔다. 여기에 그치지 않고 추론 모델을 활용하는 고객사들의 가려움을 긁어주기 위해 이에 발맞춰 AI 추론 모델의 효율 극대화하는 오픈소스 라이브러리 ‘엔비디아 다이나모(NVIDIA Dynamo)’까지 출시해 고객사들이 추론 모델을 활용할 수 있는 문턱을 크게 낮췄다. 그야말로 한때 엔비디아의 최대 위협 요인이 된 쉽게 구축할 수 있는 추론 모델의 증가를 더 많이 생각할수록 더 많은 매출을 내는 데 기여함으로써 고객사들의 AI 인프라 수요는 더욱 늘어날 수밖에 없다는 ‘전환의 논리’로 탈바꿈한 것이다. 실제로 성능당 비용의 하락은 기업들의 수요를 폭발시키는 ‘제번스의 역설(Jevons Paradox)’을 촉발한다. 이날 젠슨황이 공개한 구글, 메타, 마이크로소프트, 아마존 등 상위 네 개 고객사가 지난해 구매한 호퍼 GPU 규모는 130만 개 수준이었으나 올해 현재까지 주문한 블랙웰 GPU의 규모는 2.7배가 넘는 360만 개에 달한다.
스케일업 넘어 스케일아웃으로 이는 ‘스케일 아웃(Scale-Out, 서버 여러 대를 추가해 횡적으로 시스템을 확장하는 것)’으로 가기 전에 최대치로 ‘스케일 업(Scale-Up, 기존 서버 사양을 업그레이드해 수직 확장을 도모하는 것)’을 해보자는 기조의 일환이다. 블랙웰에 이어 다음 시리즈로 2027년 양산될 루빈 시리즈의 최고 버전인 ‘루빈 울트라 NVL 576’는 스케일 업의 본격적인 구현으로 볼 수 있다. GPU 576장을 한 묶음으로 탑재한 이 AI칩은 초당 4.6페타바이트(PB)에 달하는 속도를 내 슈퍼컴퓨터를 모두 합쳐놓은 것과 같은 성능을 짐작하게 한다. 스케일업을 넘어 스케일아웃으로 가기 위한 비전도 뚜렷하게 제시했다. 점차 ‘GPU를 얼마나 확보할 수 있느냐’ 이상으로 ‘이들을 얼마나 한 몸처럼 유기적으로 움직일 수 있게 할 것인가’가 중요해지기 때문이다. 엔비디아가 이번에 TSMC와 공동 개발한 CPO(Co-Packaged Optics) 네트워킹 스위치는 스케일아웃의 큰 ‘해자(垓子)’가 될 것으로 보인다. 광학 부품과 전자 부품을 하나의 패키지에 통합해 데이터의 전송 효율을 높이고 병목 현상을 크게 줄였다. 이를 바탕으로 장기적으로 전력 소모가 높은 광 트랜시버를 대체하고 엔비디아의 AI 인프라 록인 효과를 강화하겠다는 방침이다. 모든 방향은 AI 인프라 생태계를 엔비디아를 중심으로 통일하는 데 집중하는 전략이 차근차근 빌드업 되고 있다는 것을 누구라도 쉽게 확인할 수 있는 부분이었다. 장기적으로는 단일 클러스터 기준 100만 개의 GPU로도 확장되는 시대가 열릴 수 있고 이를 열 존재가 엔비디아라는 점은 분명해 보인다.
