지난 4월, 1000억원에 달하는 시리즈 B 투자를 유치한 업스테이지는 최근 미국시장 공략에 집중하고 있습니다. 미국은 예로부터 전세계 첨단산업의 중심지였고 AI도 마찬가지입니다. 오픈AI, 구글, 메타, 마이크로소프트 등 오늘날 AI 산업을 쥐락펴락하는 빅테크 기업들 모두 ‘미국산’이니까요. 이 땅에서의 성공은 곧 미국 외 글로벌 시장으로 뻗어나가기에도 좋은 초석이 될 겁니다. 그러나 공룡이 우글거리는 틈에서 웬만한 스타트업은 명함조차 내밀기 쉽지 않을 텐데요. 업스테이지는 다릅니다. 자신감마저 넘쳐 보이죠.
이들이 전면에 내세운 건 ‘풀스택 거대언어모델 생태계(Full-stack LLM Ecosystem)’ 역량입니다.
풀스택은 소프트웨어 분야에서 ‘팔방미인’이나 ‘올라운더’ 같은 의미입니다. 즉, 업스테이지는 스스로 거대언어모델(LLM) 생태계 구성에 필요한 모든 역량을 갖췄다고 말하는 건데요. 현시점 AI 산업에서 풀스택 LLM 역량을 자신할만한 기업은 앞서 언급한 빅테크들을 비롯, 아직 극소수에 불과하다는 점에서 주목할 만합니다.
풀스택 LLM 역량은 희소성뿐 아니라 그에 상응하는 비즈니스 파급력도 상당합니다. 이를 이해하려면 LLM의 기본구조 및 ▲데이터 전처리(Dataverse) ▲깊이확장 스케일링(DUS) ▲단계별 최적화(sDPO) ▲모델평가(Evalverse)로 이어지는 업스테이지 핵심 플랫폼들의 연결 구조를 먼저 살펴봐야 하는데요. 본 콘텐츠 제작에는 풀스택 LLM 구현에 직접 기여한 업스테이지의 박찬준, 김다현 연구원이 많은 도움을 주셨습니다.
풀스택 LLM
LLM
LLM은 쉽게 말해 인간의 언어를 잘 이해하고 구사하도록 특화된 AI입니다. 그리고 모든 LLM은 ▲사전학습(Pre-training) ▲미세조정(Supervised Fine-tuning) ▲정렬(Alignment)이란 3단계 과정을 거쳐 만들어지는데요. 우선 이 구조를 잘 이해해야 합니다.
사전학습은 범용적인 특성의 기본 LLM을 만드는 단계입니다. AI가 자연스러운 문장을 생성하거나, 사용자의 질의를 정확히 이해하도록 언어의 특징을 학습시키는 과정이 포함됩니다.
미세조정은 사전학습을 마친 모델이 사용자 질문에 어떤 형태로 답변해야 하는지 가르치는 과정입니다. 이 과정에서 필요에 따라 특정 데이터를 추가 학습시키거나 최적화를 통한 성능 조절이 이뤄집니다.
정렬은 일종의 도덕관을 심는 단계입니다. LLM이 폭력적이거나 불법적인 요청을 걸러내고 인간적인 답변을 하도록 기준을 가르치는 과정이 포함됩니다.
이 3단계는 모두 완성도 높은 LLM을 구현하기 위한 중요한 과정이 수반됩니다.
그러나 LLM 비즈니스 기업 중 상당수는 메타의 ‘라마(Llama)’처럼 공개된 사전학습 모델을 이용한 미세조정 단계에서만 경쟁하고 있습니다. 의외로 사전학습 및 정렬 단계에 적용 가능한 기술 및 연구 노하우를 지닌 기업이 아직 많지 않은 까닭입니다. 또한 미세조정은 일종의 재가공이므로 AI를 연구와 사업에 뛰어드는 기업들이 가장 빠르게 결과물을 만들 수 있는 점이 매력적이란 이유도 있습니다.
그러나 미세조정만으로 눈에 띄는 성능 개선이 어렵습니다. 김다현 연구원에 따르면 LLM 모델의 성능을 높이는 3가지 중요한 조건은 ▲모델의 크기를 키울 것 ▲학습 데이터의 규모를 키울 것 ▲충분한 학습시간을 가질 것인데요. 이 중에서도 어느 한쪽에 치우치지 않고 균형감 있는 확장이 이뤄질 때 가장 큰 개선 효과가 나타난다고 합니다.
DUS
업스테이지의 깊이확장 스케일링(Depth-Up Scaling, DUS)은 위 요소 중 사전학습 단계에서 상대적으로 적은 비용과 단순한 방식으로 모델의 크기를 키울 수 있는 기법입니다.
현재 AI 기업들이 미세조정에 집중하는 또다른 이유는 사전학습 모델을 자체 제작하거나 개조할 때 큰 비용이 들기 때문인데요. 실제로 LLM 개발은 몇십억~몇천억개에 이르는 매개변수와 학습 데이터를 다루는 과정에서 방대한 컴퓨팅 리소스가 필요하고, 그 운영 비용은 천문학적인 수준으로 알려져 있습니다.
DUS는 공개된 사전학습 모델을 확장하는 방식으로 이 부담을 최소화할 수 있습니다.
예컨대 매개변수가 10B(100억)인 모델 2개를 합치면 성능이 2배인 20B 모델이 만들어질까요? 그렇게 단순하지 않습니다. 사람에 비유하면 동일한 지능과 특성을 지닌 두 사람이 같은 방법으로 한 문제를 푼다고 특별히 획기적이거나 빠르게 답을 내긴 어려울 것처럼 말입니다. 그러나 각자의 역할을 효율적으로 분배하고 선택과 집중을 통한 시너지를 창출하도록 한다면? 분명히 더 빠르게 좋은 답을 찾아낼 수 있을 겁니다.
업스테이지는 비슷한 원리로 공개형 LLM 미스트랄 7B 모델 2개를 활용한 10.7B 모델 ‘솔라(SOLAR)’1SOLAR, Specialized and Optimized Llm and Applications with Reliability를 만들어냈습니다.
미스트랄 7B 모델은 구조상 32개의 레이어(Layer, 문제해결 단계를 구분하는 층)로 구성됩니다. 이를 단순히 합치면 14B-64레이어 모델이 될 텐데요. 이 경우 앞선 비유와 같은 문제로 성능이 2배가 되진 않습니다.
따라서 업스테이지는 자체 연구를 통해 두 모델 간 연결 시 레이어 호환성이 가장 좋은 24개 층을 찾아냈습니다. 이를 합쳐 48개 레이어로 확장하고, 최적화 작업인 연속 사전학습(Continued Pre-training)을 거쳐 단순 14B 모델보다도 성능이 좋은 10.7B LLM을 만드는 데 성공했죠.
DUS는 먼저 업스테이지의 글로벌 LLM 비즈니스에서 활약 중인 솔라에 적용돼 성능을 입증했고요. 오는 6월에는 세계 최고권위 NLP(자연어처리) 학회인 ‘NAACL 2024’에서도 관련 논문 발표가 확정됐을만큼 학계에서도 많은 관심을 보이고 있습니다.
특히 DUS는 앞서 오픈AI가 챗GPT-4에 적용한 유사 기술(MoE, Mixture of Experts)과 비교해도 호평을 받곤 합니다. 두 방식 모두 모델의 크기와 성능을 향상한다는 목적은 같지만, 구조적으로 DUS가 훨씬 단순하기 때문이죠. MoE는 복잡한 구조와 높은 기술 적용 난이도 탓에 그리 널리 쓰이지 못하고 있습니다. 반면 DUS는 논문 공개 직후 중국의 AI 유니콘 기업 01.AI이 DUS를 적용한 언어모델 ‘Yi’를 공개하는 등 실효성 검증 사례가 속속 생겨나는 추세인데요. 앞으로는 더 많은 기업들이 DUS를 이용해 AI 연구개발 범주를 넓혀갈 것으로 기대되고 있죠.
sDPO
모델의 크기를 키우고, 많은 데이터를 학습시키는 것만큼 AI의 가치관을 인간 사회의 기준과 일치시키는 노하우도 대단히 중요합니다. 이는 LLM 개발 단계 중 ‘정렬’에 해당하는데요. 이 과정이 미흡할 경우 AI가 사고를 칠 확률도 그만큼 높아지기 때문입니다. 예를 들어 AI가 폭탄 제조법을 거리낌 없이 알려준다거나, 특정인을 비하하거나 혐오하는 이미지를 분별 없이 제작하는 등의 문제 말이죠.
업스테이지는 여기에도 단계적 최적화(Stepwise-Direct Preference Optimization, sDPO)란 독자기법을 개발해냈습니다. 일반적인 정렬은 AI가 해도 될 것과 안 될 것을 망라한 뒤 한번에 주입하는 방식이 쓰이는데요. sDPO는 학습 데이터를 최적의 단계로 구분한 뒤, 한 단계씩 차근차근 학습해 나가는 방식이란 차이가 있습니다.쉽게 말하면 일종의 커리큘럼 최적화인 셈이죠.
예를 들어 아이에게 초등학교 1학년부터 고등학교 3학년까지 배울 내용을 한번에 가르친다고 가정해봅시다. 그 누구도 쉽지 않을 겁니다. 아무리 영재라도 명확히 이해하지 못하고 넘어가는 부분이 생기겠죠. AI의 예기치 못한 사고도 바로 그런 지점들에서 발생합니다.
따라서 AI 역시 쉬운 개념부터 어려운 개념까지 범주를 명확히 구분하고, 100% 학습이 완료된 후 다음 단계로 넘어가야 실전에서의 실수를 최소화할 수 있습니다. sDPO 기술은 현재 솔라를 더욱 안전한 LLM로 만드는 데에도 큰 기여를 하고 있는데요. 특히 기업용 LLM은 한번의 사고가 큰 파장으로 이어질 수 있는 만큼 모델의 안정성 확보는 결코 간과할 수 없는 문제입니다. 엔터프라이즈 LLM 비즈니스 기업들의 역량을 판단하는 중요한 지표도 될 수 있죠.
Dataverse & Evalverse
DUS와 sDPO가 LLM 개발 단계라면 데이터버스(Dataverse)와 이벨버스(Evalverse)는 풀스택 LLM 생태계의 시작과 끝을 담당하는 문고리 역할을 합니다.
이 중 데이터버스는 AI용 학습 데이터를 쉽고 효율적으로 가공하도록 돕는 업스테이지의 ‘데이터 전처리 표준화 솔루션’입니다. 데이터 전처리는 AI가 학습할 데이터에서 중복되거나 불필요한 데이터를 사전에 걸러내는 작업입니다. 전처리가 원활하지 않으면 모델의 성능 저하는 물론이고, 막대한 데이터 학습비용 대비 성능 효율도 떨어지게 되죠. 따라서 본격적인 LLM 개발 전 가장 중요한 단계라고 할 수 있습니다.
이벨버스는 완성된 LLM의 성능을 다각적으로 평가할 수 있는 업스테이지의 ‘노코드 LLM 종합평가 플랫폼’입니다. 노코드란 말처럼 LLM 테스트에 복잡한 코딩을 요구하지 않아 누구나 쉽고 빠르게 활용할 수 있죠. 특히 업무용으로 유명한 메신저 슬랙과도 연동되어 접근성이 더욱 높은 편입니다.
구체적으론 허깅페이스 Open LLM 리더보드에 활용되는 ‘H6’ 지표를 포함해 ▲대화 능력 지표 ‘MT-bench’, ▲감성 평가 지표 ‘EQ-bench’ ▲지시 이행 능력 지표 ‘IFEval’ 등 LLM 평가용 주요 벤치마크를 한번에 통합 테스트할 수 있는 환경을 제공합니다. 이로써 기업들이 그동안 각 벤치마크 플랫폼에 모델을 개별 제출하던 수고를 덜어준 점에서도 획기적이란 평가를 받고 있죠.
더불어 한국어 특화 LLM 벤치마크인 Open-Ko LLM 리더보드2(본문 中) 이곳에선 개인 개발자부터 SK텔레콤, 한국전자통신연구원(ETRI), 마음AI, 고려대 등 다양한 기업과 학계가 일단위 순위 각축전을 벌이며 선의의 경쟁을 벌이고 있습니다를 개발한 업스테이지는 이를 2023년 9월부터 한국지능정보사회원(NIA)과 공동운영 중인데요. 이 같은 리더보드 직접 운영을 통해서도 심층적인 모델 평가 역량을 갖춘 것으로 평가되고 있습니다.
현재 데이터버스와 이벨버스는 모두 오픈소스로 공개되어 있습니다. 둘 모두 모델의 품질과 배포 시점에 영향을 줄 수 있는 중요한 노하우지만, 업스테이지는 ‘생성형 AI 생태계의 발전 및 상생 노력의 일환’3(본문 中)업스테이지가 이윤을 최우선으로 했다면 리더보드 운영이나 데이터버스 공개 같은 활동은 뒷전이었을 겁니다. ‘당장 돈이 되는 일’과는 거리가 머니까요.이란 입장입니다.
풀스택 LLM 비즈니스
데이터 – 보이지 않는 힘
위 내용을 종합해 업스테이지는 ‘양질의 학습 데이터셋 구축부터 모델 개선 및 평가 노하우까지 두루 갖췄다’는 설명이 가능합니다. 이게 바로 미국 한복판에서도 자사를 풀스택 LLM 생태계 사업자라고 소개할 수 있었던 배경이죠.
추가로 지난해 8월 발족한 ‘1T 클럽’4(본문 中)한국형 LLM 활성화에 기여한다는 명분, 나아가 업스테이지의 이 분야 리더십 확보와 사업 측면에서도 유리한 발판을 마련해갈 것으로 기대됩니다.의 순항도 계속 예의주시할 대목입니다. ‘1 Trillion(1조) 토큰 클럽’의 약자인 1T 클럽은 텍스트, 책, 기사, 보고서, 논문 등 다양한 분야에서 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된 조직입니다. 설립 당시 20여개 언론사 및 기업과 학계가 참여한 것으로 전해집니다. 발족 당시엔 영어 데이터가 주축인 글로벌 LLM 시장에서 한국어 데이터를 체계적으로 확보하기 위한 노력으로 주목받기도 했습니다.
그러나 약 8개월이 흐른 현재, 1T 클럽은 보다 중요한 가치를 지니게 됐습니다. 이는 ‘데이터 전쟁’이 심화된 오늘날 글로벌 AI 산업의 흐름과도 무관치 않은데요. 실제로 안전한 데이터 수급 채널을 확보하고 데이터 공급자들과 상생하는 일은 앞으로 AI 비즈니스 기업들의 생존과도 직결된 문제로 부각될 가능성이 높습니다.
일례로 지난해 말 뉴욕타임스는 ‘자사 뉴스 데이터가 챗GPT에 무단 학습됐다’며 오픈AI에 소송을 제기한 일5뉴욕타임스처럼 잘 정제된 정보형 자료를 대량 보유한 언론사들의 기사는 생성형 AI 개발 기업들에게 매력적입니다. ‘좋은 데이터’의 조건을 가장 잘 갖춘 것 중 하나가 뉴스이기 때문이죠.이 있죠. 올해 3월 엔비디아도 작가들로부터 비슷한 소송을 당한 바 있습니다.
이와 관련해 주요국의 AI 데이터 활용 관련법 준비 움직임도 속속 포착됩니다. 그 여파는 아직 예단하기 이른데요. 일각에선 데이터를 마구잡이로 수집했던 기업들이 최악의 경우 서비스 중단 및 시장철수 등의 책임을 지는 상황에 이를 것으로 예측하기도 합니다. 이런 측면에서 1T 클럽 가동으로 합법적인 데이터를 안정적으로 수급하며, 최근 솔라 매출 증대에 따른 파트너사 수익 공유 계획까지 현실화한 업스테이지의 사례는 정부에서도 많은 관심을 갖고 있다고 합니다. 박찬준 연구원은 1T 클럽을 두고 “업스테이지의 보이지 않는 힘”이라고 설명하기도 했죠.
누구는 절망해도…업스테이지는 기회!
이처럼 창업 5년차, 전체 임직원은 100여명에 불과한 스타트업에서 글로벌 빅테크 못지않은 LLM 시장 경쟁력을 갖춘 사례는 세계적으로도 찾아보기 어렵습니다. 업스테이지가 시리즈 A부터 B까지 동종업계 최대 규모의 투자를 성공적으로 마무리 지은 배경이기도 합니다. 이와 관련해 두 연구원은 업스테이지의 큰그림을 그리며 진두지휘 중인 김성훈 대표의 리더십을 높게 평가했는데요.
김 대표는 1995년 20대 초반에 최초의 한국어 검색엔진 ‘까치네’를 개발하고 나라비전 창업 후 홍콩과기대 교수, 네이버 클로바 AI팀 리더 등을 거쳐 업스테이지를 창업한 인물입니다. 기술적으론 딥러닝 분야 석학으로 인정받는 동시에 풍부한 비즈니스 실무 경험을 바탕으로 2번째 창업 회사인 업스테이지를 단기간에 성공궤도로 올려놨죠.
이 가운데 LLM 풀스택 생태계 역량은 김대표의 리더십, 수준 높은 인재들6(본문 中)”업스테이지는 동료를 자랑하고 싶은 회사에요. 다들 수준이 높고 열정적이니까 자연스레 발전적인 분위기가 형성되거든요.”과 더불어 업스테이지가 올해 글로벌 시장에서 계획한 돌풍을 완성시킬 핵심키로 꼽힙니다. 실제로 2024년 1분기에만 지난해 실적에 버금가는 100억원의 매출을 기록한 업스테이지는 올해가 조직과 비즈니스 안팎에서 폭발적 성장이 이뤄질 원년이 될 것으로 확실시 되고 있죠.
한편 “새로운 AI 모델의 등장이 어떤 경쟁사들에게 ‘절망’이라면, 우리에겐 새로운 ‘기회’가 될 수 있다.”고 말한 김다현 연구원의 말도 꽤 인상 깊었습니다. LLM의 A부터 Z까지 다룰 수 있는 풀스택 주자에게 새로운 고성능 모델의 등장은 경쟁사 대비 앞선 패스트 팔로잉(Fast-flowing, 빠른 추격)을 가능케 한다는 의미인데요. 이 말을 듣고 문득 삼성전자의 사례가 떠오르더군요.
삼성전자는 오늘날 애플과 함께 명실상부 세계 스마트폰 시장의 양대강자입니다. 2010년대 초반만 해도 패스트 팔로워를 비난하는 ‘카피캣(Copycat, 따라쟁이)’이란 오명이 따랐지만, 지금은 안드로이드의 아버지인 구글보다 안드로이드폰을 잘 만드는 회사가 됐습니다. 스마트폰 판매 점유율도 지난 10년 이상 애플을 앞섰고요.
이는 단순히 자본을 많이 투입한 결과가 아니었습니다. 스마트폰 이전에 이미 풍부한 피처폰 제조경험을 바탕으로 풀스택 제조 생태계를 갖춘 것, 이후 소프트웨어 역량을 빠른 속도로 끌어올리며 애플과 보폭을 맞춘 점 등이 주효했거든요. 이 가운데 단순히 스마트폰 디자인이나 일부 특징적 기능으로만 승부하려 했던 전세계 많은 대형 제조사들은 결국 스마트폰 시장에서 철수를 선언했죠. 그러나 삼성은 이제 폴더블 폼팩터, AI 스마트폰이란 차세대 테마 등에서도 애플을 완전히 역전한 그림마저 그리고 있습니다.
이렇게 보면 업스테이지도 스마트폰 시장 초기 삼성과 비슷해 보이죠. 많은 경쟁사가 미세조정 기술로 경쟁할 때 조기에 풀스택 LLM 역량을 갖추고, 선두주자들을 빠르게 추격 중이니까요. 과연 다음 세대 첨단산업을 이끌 AI 산업에서 업스테이지가 제2의 삼성과 같은 성공 사례를 만들어 낼지 더욱 기대되는 대목입니다.