EDITOR 이건한
2024-01-09

업스테이지가 자체 개발한 경량 LLM(거대언어모델) ‘솔라(SOLAR)’로 AI 선두기업인 오픈AI와 마이크로소프트의 수학 AI 성능 점수를 경신했습니다. 앞서 범용 LLM 벤치마크에서 챗GPT를 잡아냈던 업스테이지가 특수 분야에서도 글로벌 LLM 기술리더 자리를 공고히 해나가는 모습입니다.

요약

MathGPT, 수학AI 벤치마크 평정

업스테이지는 1월8일 매스프레소, KT와 공동 개발한 수학 도메인 특화 AI ‘MathGPT(가칭)’가 수학 부문의 글로벌 벤치마크(성능 비교 플랫폼) ‘MATH’와 ‘GSM8K’의 매개변수 13B(130억개) 카테고리에서 기존 1위 모델인 MS ‘ToRA 13B’의 점수를 경신했다고 전했습니다.

MATH에서 MathGPT가 기록한 점수는 0.488점입니다. 기존 1위 모델인 MS-Tora 13B는 0.481점, 그 뒤를 따르던 오픈AI-GPT-4는 0.425점이었습니다. GSM8K에서도 MathGPT는 0.782점을 기록, 0.782점의 Tora 13B를 1위 자리에서 밀어냈습니다.

MATH는 1만2500개의 고난도 수학 경시 문제, GSM8K는 8500개에 달하는 초등학교 수학 문제로 산술 연산을 테스트하는 벤치마크입니다. 성격이 상이한 두 벤치마크에서 동시에 세계 최고 성능을 기록한 건 MathGPT가 최초이며 MathGPT 개발 착수 3개월만에 이룬 성과입니다. 특히 이번 소식에서는 업스테이지의 기술력, 사업 잠재력, 한국 AI 파트너십의 경쟁력이란 3가지 측면에서 의미를 찾아볼 수 있습니다.

의의

LLM 개발력 & 확장성 입증

기술 측면부터 살펴볼까요? MathGPT를 비롯한 ‘LLM’은 인간과 AI의 자연어 소통을 돕는 거대 언어모델을 말합니다. 2023년 사람처럼 이해하고 답하는 LLM 기반 AI의 대표주자 챗GPT가 유명세를 타면서, 이후 다양한 산업군에 LLM을 접목하려는 시도가 이뤄지고 있는데요.

LLM을 수학에 적용했을 때 주요 이점은 수학 교육 및 연구 분야에서 AI의 활용성을 극대화할 수 있다는 점입니다. 제한된 수학 수식만 처리할 수 있는 일반 계산기와 달리, LLM 기반 수학 AI는 자연어 질문에 대응이 가능하고 문제풀이 과정도 설명할 수 있기 때문입니다. 다양한 예제도 쉽고 빠르게 만들어 낼 수 있고요.

업스테이지는 MathGPT 이전에도 LLM 부문의 글로벌 플레이어였습니다. 2023년 8월, 솔라 LLM의 초기 모델로 챗GPT를 잡아낸 전적이 대표적이죠. 이는 ‘LLM계의 빌보드 차트’로 불리는 허깅페이스 오픈LLM 리더보드에서 거둔 성과였는데요. 세계 최초로 GPT3.5(챗GPT의 LLM)의 점수를 경신한 사건이기도 했습니다.

허깅페이스-오픈-llm-리더보드-순위에서-업스테이지의-모델이-1위를-차지한-모습-1 — *오픈 LLM 리더보드에서 1위를 차지한 업스테이지 AI 모델 (ⓒ 업스테이지)*

이어 MathGPT로 거둔 이번 성과로 업스테이지의 LLM이 특수 분야에서도 좋은 성능을 발휘할 수 있는 모델임이 증명되었습니다. 수학 AI는 단순 자연어 처리를 넘어 고도의 산술능력, 문제 의도를 정확히 판단할 수 있는 해석 능력이 고루 필요한 고난도 영역인데요. 업스테이지는 AI 교육 플랫폼 ‘콴다’ 운영사인 매스프레소가 제공한 고품질 수학 전문 데이터와 KT가 제공한 AI 인프라를 바탕으로 솔라를 파인튜닝(미세조정), 이번 성과를 거뒀다고 설명했습니다.

솔라는 타 LLM 대비 적은 데이터로도 고성능을 낼 수 있도록 업스테이지가 자체 개발한 학습 기법과 별도의 데이터셋을 활용한 사전학습 모델입니다. 기본 틀이 잘 갖춰진 덕분에 수학 연산에 필요한 양질의 데이터를 추가 학습하고, 이를 최적화하는 파인튜닝만으로도 단기간에 수학 부문 정상에 오를 수 있었던 거죠.

튼튼해진 LLM 사업 교두보

또한 솔라와 같은 경량 LLM은 경제적이고 안전한 AI 개발을 원하는 기업 맞춤형 ‘프라이빗 LLM’ 시장에서도 유리한데요. 프라이빗 LLM은 챗GPT 같은 공개형 범용 LLM이 갖는 보안 측면의 약점과 불필요한 데이터 학습 비용을 줄여 기업 환경에 최적화 시킨 폐쇄형 LLM을 말합니다. 최근 안전하면서 가성비 좋은 기업용 AI 솔루션 구축을 위한 주요 대안으로 주목받고 있습니다.

프라이빗 LLM 비즈니스에 필요한 핵심 역량은 고객이 원하는 분야의 맞춤형 LLM을 얼마나 신속하고 경제적으로 구축하는지, 동시에 얼마나 고성능을 구현해낼 수 있는지 등인데요. MathGPT의 성공으로 업스테이지는 특수 분야에서도 단기간에 고성능 프라이빗 LLM을 개발할 수 있는 능력을 증명한 셈입니다.

또한 업스테이지는 창업 후 지금까지 국내에서 확보한 기술력과 사업 성과를 바탕으로 올해는 해외진출을 본격화할 계획입니다. 일반적으로 국내 기업이 처음 해외에 진출해 투자를 유치하거나 비즈니스 파트너를 확보할 때 중요한 자산 중 하나는 신뢰성 입증인데요. 주로 정부의 공공 프로젝트 참여 이력이나 유명 기업과의 파트너십 경력 등이 있으면 유리합니다.

관련해 업스테이지는 이미 다수의 국내 대기업에 AI OCR 솔루션을 공급하고 솔라 기반 개발 프로젝트를 수주한 바 있습니다. 여기에 허깅페이스 오픈LLM 리더보드 1위, 양대 수학 AI 벤치마크 1위 실적까지 더하면 기술과 사업역량 양면 모두에서 해외진출용 교두보가 탄탄하게 마련됐다고 볼 수 있습니다.

글로벌 경쟁력 입증한 韓 AI연합

업스테이지 콴다 KT — *MathGPT 개발 파트너 회사 로고 (ⓒ 업스테이지)*

이번 성과는 한국 AI 산업의 경쟁력을 해외에 각인한 사례이기도 합니다. MathGPT는 기본적으로 업스테이지의 LLM과 AI 파인튜닝 역량을 중심으로 탄생한 결과물이지만, 양질의 학습 데이터와 인프라를 제공한 파트너사들의 공로도 결코 무시할 수 없기 때문입니다.

좋은 AI를 개발하고 운영하려면 모델(알고리즘)과 데이터, 컴퓨팅 자원의 조화가 중요합니다. 사람의 뇌가 아무리 뛰어나도 학습한 지식과 에너지가 적으면 완전한 역량을 발휘할 수 없는 것과 같은데요. 보통 한 기업이 세 가지 역량을 모두 갖춘 경우는 드뭅니다.

따라서 AI 시장에서 큰 물로 나아가려면 각 분야에서 능력 있는 파트너들이 만나 연대와 시너지를 이루는 것이 중요합니다. 일례로 오픈AI는 챗GPT로 명실공히 세계 최고 수준의 AI 기술리더로 평가받고 있는데요. 사실 MS라는 막강한 데이터, 컴퓨팅 자원, 자금을 지닌 우군이 없었다면 지금과 같은 성과는 결코 이루지 못했을 것입니다. 실제로 컨설팅 기업 세미 애널리시스에 따르면 지난해 기준 챗GPT의 일일 운영비용은 한화로 최소 10억원에 가까운 것으로 추정된 바 있습니다. 비영리단체인 오픈AI 단독으론 감당할 수 없는 비용이죠.

업스테이지도 마찬가지입니다. AI 기술력은 이미 글로벌 수준이지만 여전히 스타트업으로서, 양질의 학습 데이터와 충분한 컴퓨팅 자원을 확보하는 건 내부적으로도 ‘투쟁’이라 부를만큼 녹록치 않은 상황인데요.

이번 성과도 8천만명에 이르는 누적 가입자와 40억건 이상의 수학 문제풀이 데이터를 제공한 콴다, 그리고 AI 모델이 비용 걱정없이 제 성능을 마음껏 발휘할 수 있도록 대기업 KT가 제공해준 컴퓨팅 인프라가 없었다면 애초에 도전조차 어려웠을 것입니다. 그만큼 3사가 거둔 이번 결과물은 국내 AI 파트너십 가운데서도 성공적인 선례로 기록될 텐데요. 세계적으로 국가 간 AI 패권 경쟁이 치열해지고 있는 이 시기, 토종 기업 간 연대만으로 이미 세계 무대에서 충분히 통하는 결과물을 만들어낼 수 있음이 증명되었기 때문입니다.