X
구글의 새 인공지능(AI) 모델 제미나이3은 오픈AI의 챗GPT를 위협하는 성능과 함께 AI 인프라의 '제왕'으로 군림하는 엔비디아 그래픽처리장치(GPU)를 쓰지 않고 개발했다는 점에서 세상을 놀라게 했다.
구글은 자체 개발한 AI 가속기 텐서처리장치(TPU·Tensor Processing Unit)를 써서 진일보한 거대언어모델(LLM) 제미나이3과 이미지 생성·편집 도구 나노 바나나 프로를 개발했다.
제미나이3에게 물어본 제미나이3 탄생 비결
고성능 LLM을 개발하기 위해서 엔비디아 GPU가 필수품으로 여겨졌는데 이 장벽을 가뿐히 넘은 TPU는 어떤 존재인지 제미나이3에게 직접 물어봤다.
제미나이3는 구글이 'TPU-XLA-JAX-A3·A4(슈퍼컴퓨터) 구조'를 통해 제미나이3 개발을 위한 새로운 AI 학습 방식을 고안한 것이라고 설명했다.
쉬운 말로 바꿔 설명하라는 제안에 "일반인도 쉽게 이해할 수 있도록 복잡한 기술 구조를 AI를 훈련하는 '거대한 공장 시스템'에 비유하겠다"고 했다.
AI 모델을 학습시키는 과정은 엄청나게 많은 데이터를 처리하고 복잡한 계산을 수행하는 작업으로 구글은 이 작업을 가장 빠르고 효율적으로 처리하기 위해 특별한 시스템(공장)을 구축했다.
구글이 AI 계산에 특화해 자체 제작한 중앙처리장치(CPU)·GPU의 대체품인 TPU는 일반적인 컴퓨터 칩처럼 범용적인 작업을 하지 않고 오직 AI의 핵심 연산만 초고속으로 처리하도록 설계된 AI 전용 계산 기계다.
제미나이 3처럼 초대형 모델을 효율적으로 훈련할 수 있었던 데는 수천 개의 TPU 칩을 초고속 통신망으로 연결해 마치 하나의 거대한 기계처럼 작동하게 만든 구조가 필요했는데 이 역할 한 것이 바로 A3·A4 슈퍼컴퓨터다.
제미나이3은 "아무리 좋은 하드웨어가 있어도 이들을 효율적으로 움직이고 작업을 할당하는 소프트웨어(운영 체제)가 필요하다"며 JAX와 XLA가 그 역할을 수행한다고 설명했다.
JAX는 AI 모델을 만드는 과학자들이 사용하는 프로그래밍 언어 프레임워크로, AI 모델을 설계하면 이를 곧바로 TPU가 가장 잘 이해하고 빠르게 계산할 수 있는 언어(컴파일된 코드)로 자동 변환한다.
제미나이3 비유에 따르면 JAX는 과학자의 설계 도면(AI 모델)을 공장 라인(TPU)이 즉시 이해하고 실행할 수 있도록 하는 '자동 번역 및 최적화 시스템'이다.
XLA는 여러 개의 TPU에 계산을 효율적으로 분배하고, 메모리 사용을 최소화하여 성능을 극대화하는데, 제미나이3은 이를 스마트 공장 관리 시스템에 비유했다.
제미나이3은 "공장 라인(TPU) 전체를 총괄하며 '이 계산은 이 칩이, 저 계산은 저 칩이 맡아라'라고 지시해 낭비 없이 최대 속도로 작업을 진행하게 한다"고 빗댔다.
TPU 성과, 국내 NPU 업계에 빛 될까
정리하자면 엔비디아 GPU를 잔뜩 들여놔야 돌아간다고 알려졌던 AI 모델 학습 '공장'이라는 고정관념을 구글이 전용 계산기(TPU), A3·A4 슈퍼컴퓨터, 프로그래밍 언어 프레임워크, 스마트 연산 관리 시스템을 고안해 깨는 데 성공했다는 이야기다.
이 소식은 엔비디아가 점령한 AI 반도체 시장에 균열을 내기 위해 고군분투하던 국내 신경망처리장치(NPU) 업계에 고무적인 반응을 일으키고 있다.
물론 AI 학습에서 진일보한 결과를 낸 구글 TPU가 온디바이스·피지컬 AI에 보다 특화된 NPU보다는 엔비디아 GPU와 같이 묶여야 할 카테고리라는 분석도 있다.
X
하지만, 쉽게 예단할 수 없는 AI 기술 발전 구도 속에서 '정해진 답'이 없다는 것을 TPU가 방증했다는 점에서 국내 NPU 업계도 패러다임 전환과 기술 개발에 계속 도전할 유인으로 충분하다는 기대가 나온다.
국내 NPU 업계 관계자는 "TPU가 메타 등 외부 데이터센터에 공급되는 것은 추론 시장에서 엔비디아 GPU의 대체제 시장이 실제로 형성되고 있다는 것"이라며 "이 흐름을 바탕으로 다른 맞춤형 AI 칩(ASIC) 기업들이 준비 중인 추론 전용 칩 도입 논의도 자연스럽게 확산할 것"이라고 기대했다.
온디바이스 AI 반도체 전문 딥엑스 관계자는 "엔비디아가 쿠다 생태계와 함께 공고하게 구축한 NV링크, 인피니밴드와 같은 기술적 해자를 구글의 TPU 설계 개발을 지원하는 브로드컴의 토마호크 기술로 넘어서 2배 빠른 통신 속도를 이뤄냈다"고 분석했다.
그는 "TPU가 GPU를 대체할 가능성에는 물음표도 있지만, 자사 트래픽을 해결하거나 너무 비싼 GPU 비용 문제를 해결하는 대안이 될 수 있다"고 말했다.
피지컬AI 기업 써로마인드의 장하영 대표는 "오픈AI나 딥시크도 엔비디아의 소프트웨어 생태계 쿠다를 쓰지 않고 자체적으로 만든 개발 프레임워크를 통해 AI 모델을 만들면서 LLM 기술 경쟁력을 쌓고 있다"고 말했다.
장 대표는 "우리나라 AI 업계·당국도 개발 프레임워크 연구에 늦게나마 뛰어들었기 때문에 NPU 고도화 등의 기술 개발에 매진하면 가능성이 있다고 본다. AI 모델뿐 아니라 AI 반도체 역시 미래를 아무도 알 수 없는 상황이기 때문"이라고 부연했다.
전 과학기술정보통신부 장관이자 반도체 석학 이종호 서울대 전기정보공학부 교수도 "국내 AI 반도체 회사인 퓨리오사AI의 직원 구성을 보면 하드웨어:소프트웨어가 3:7일 정도로 국내 NPU 업계에서도 구글과 같은 AI 풀스택 기술을 개발하기 위한 노력이 한창"이라고 전했다.
이 교수는 "NPU에서 나아가 메모리에서 연산이 이뤄지며 전력 효율을 크게 향상시키는 프로세스 인 메모리(PIM) 등 우리나라가 강점을 가진 AI 반도체 신기술에 역량을 집중하는 것이 필요하다"고 제언했다./연합뉴스