엔비디아가 본 건 GPU가 아니라, GPU 사이의 “길”이었다

요즘 AI 인프라 얘기를 보면 거의 항상 GPU 얘기로 시작하죠.

어떤 GPU가 더 빠른지, HBM은 얼마나 붙는지, 서버는 몇 대를 깔아야 하는지, 전력은 감당이 되는지 같은 이야기들입니다.

그런데 갈수록 느끼는 건, 이제는 GPU 하나하나의 성능만으로는 설명이 안 되는 구간으로 넘어가고 있다는 점입니다.

GPU가 아무리 빨라도 여러 장을 묶어서 돌릴 때 데이터가 오가는 길이 막히면 전체 성능이 생각보다 안 나옵니다. 결국 기다리는 시간이 생기고, 비싼 장비를 사놓고도 제대로 못 쓰는 상황이 생길 수 있는 거죠.

그래서 포인투테크놀로지 같은 회사가 눈에 들어옵니다.

이 회사는 GPU를 만드는 곳은 아닙니다. 대신 AI 데이터센터 안에서 칩과 칩 사이의 데이터 이동을 다루는 쪽에 가깝습니다. e-Tube라는 기술도 결국 그 “길”을 어떻게 더 빠르고 효율적으로 만들 것인가에 대한 시도입니다.

기존 구리선은 싸고 익숙하지만 고속으로 갈수록 한계가 있고, 광섬유는 좋지만 비용과 전력 부담이 있습니다. 포인투테크놀로지는 그 사이의 빈틈을 파고드는 쪽으로 보입니다.

NVentures 등이 참여한 약 7,600만달러 규모의 투자 라운드도 그래서 흥미롭습니다. 엔비디아가 단독으로 1,000억원을 넣었다는 식으로 보면 과장이지만, 적어도 AI 인프라 생태계에서 “연결 기술”이 꽤 중요한 영역으로 보고 있다는 신호로는 읽힙니다.

개발 쪽에서도 비슷한 경험을 자주 하잖아요.

CPU나 GPU가 느린 줄 알았는데 막상 까보면 I/O에서 막히고, 네트워크에서 막히고, DB 왕복에서 막히고, 직렬화/역직렬화에서 시간 다 쓰고 있는 경우요.

AI 데이터센터도 스케일만 훨씬 클 뿐, 결국 비슷한 문제를 겪는 것 같습니다. 계산 자체도 중요하지만, 데이터를 어디서 어디로 얼마나 빨리 옮기느냐가 점점 더 중요해지는 거죠.

앞으로 AI 인프라 경쟁은 “누가 더 좋은 GPU를 갖고 있나”에서 끝나지 않을 것 같습니다.

GPU를 얼마나 많이 확보했는지도 중요하지만, 그 GPU들을 얼마나 덜 놀리고, 덜 막히게, 덜 비싸게 연결하느냐가 더 큰 차이를 만들 수도 있겠다는 생각이 듭니다.

개인적으로는 AI 시대의 병목이 점점 더 물리적인 영역으로 내려오고 있다는 점이 재미있습니다. 모델이나 알고리즘 이야기를 하다가 결국 케이블, 전력, 냉각, 랙 구조 같은 이야기로 돌아오니까요.

여러분은 앞으로 AI 인프라에서 어디가 제일 큰 병목이 될 거라고 보시나요?

GPU 자체일까요, 메모리일까요, 네트워크일까요, 아니면 전력과 냉각 쪽일까요?