X
연구 개념도. KAIST) 제공
한국과학기술원(KAIST)이 인공지능(AI) 서비스 비용을 대폭 낮출 수 있는 새로운 기술을 개발했다.
KAIST는 28일 전기및전자공학부 한동수 교수 연구팀이 데이터센터 밖에 있는 저렴한 소비자급 그래픽처리장치(GPU)를 활용해 대형 언어모델(LLM) 인프라 비용을 절감하는 '스펙엣지(SpecEdge)' 기술을 개발했다고 밝혔다.
이 기술은 고가의 데이터센터 GPU와 개인용 PC나 소형 서버 등에 탑재된 '엣지 GPU'가 역할을 분담하는 방식으로 LLM 추론 인프라를 구성한다. 데이터센터 GPU가 핵심 연산을 처리하고, 주변의 저렴한 GPU들이 보조 작업을 맡는 구조다.
비용 효율성 2배 가까이 향상
연구팀에 따르면 이 기술을 적용한 결과, 기존 데이터센터 GPU만 사용하는 방식 대비 토큰(AI가 문장을 생성하는 최소 단위)당 비용을 약 67.6% 절감할 수 있었다.
데이터센터 GPU만 사용하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상되는 성과를 거뒀다. 특히 일반적인 인터넷 속도에서도 안정적으로 작동해 특수한 네트워크 환경 없이 실제 서비스에 즉시 적용할 수 있다는 점이 강점으로 꼽힌다.
AI 인프라 민주화 가능성 제시
이번 연구는 그동안 데이터센터에 집중됐던 LLM 연산을 엣지로 분산시켜 AI 서비스 인프라 비용을 낮추고 접근성을 높일 수 있는 새로운 가능성을 제시했다는 평가를 받는다.
향후 스마트폰, 개인용 컴퓨터, 신경망 처리장치(NPU) 등 다양한 엣지 기기로 확장될 경우, 고품질 AI 서비스가 더 많은 사용자에게 제공될 수 있을 것으로 기대된다.
한동수 교수는 "데이터센터를 넘어 사용자 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표"라며 "이를 통해 AI 서비스 제공 비용을 낮추고, 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다"고 말했다.
이번 연구 결과는 최근 미국 샌디에이고에서 열린 AI 분야 최고 권위 국제 학회인 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(Spotlight) 논문으로 발표됐다. 스포트라이트는 전체 제출 논문 중 상위 3.2%에 해당하는 우수 논문에 부여되는 등급이다.