1996년생, 아직 20대 청년이 AI 자연어 처리 및 데이터 관련 국내외 논문만 180여편(공동저자 포함)을 썼다면 믿어지나요? 단순히 많이 쓴 게 아닙니다. ▲ACL ▲EMNLP ▲NAACL ▲EACL ▲AACL ▲COLING ▲LREC ▲IJCNLP 등 다 열거하기도 어려운, 동시에 저명한 국제학회들에도 모두 한번 이상 논문을 게재했다면 어떨까요. ‘사람의 탈을 쓴 AI 논문머신’이 아닐까 진지하게 의심됐습니다.
하지만 안타깝게도 실존하는 사람이었습니다. 그를 제가 직접 만나봤거든요. 심지어 논문을 그렇게 많이 썼다고 하면 떠오를 만한 히키코모리 박사 스타일도 아니었습니다. 그보단 예능 콘텐츠 속 ‘맑은 눈의 광인’ 캐릭터가 떠오르는 눈빛과 텐션을 지닌 자였죠. 게다가 올해는 포브스의 ‘코리아 30세 미만 30인’에도 선정됐다고 하는 남자, 바로 박찬준 업스테이지 Data Centric LLM 연구팀 수석 연구원 이야기입니다.
언어처리 외길에서 만난 LLM
쉴 틈 없이 판 ‘한 우물’
AI도 아니면서 젊은 나이에 그만한 논문을 쏟아낸 비결은 뭘까요. 그가 걸어온 ‘외길 커리어’와 ‘단순한 생각’에서 찾아볼 수 있었습니다. 시작은 부산외대 언어처리 창의융합과 입학이었습니다. 이곳에서 다양한 언어와 컴퓨터공학의 기초를 다진 뒤 세계에서 가장 오래된 기계번역 회사 시스트란, 자연어 처리 부문의 글로벌 석학인 고려대 임희석 교수 연구실 석박사 통합과정 등을 거치며 철저히 언어와 데이터 중심의 AI 지식 기반을 쌓은 그였죠.
특히 우연인지 필연인지 시스트란부터 고려대, 지금의 업스테이지까지 모두 그를 가만히 두는 곳이 없었습니다. 시스트란에선 사회 초년생인 그에게 1년여간 ▲실시간 강연 통역시스템 개발 ▲전략기획 ▲영업 및 연구 등 다양한 업무를 맡겼습니다. 고려대에서는 ‘연구실 내 스타트업’ 같은 조직인 고려대 기계번역 연구그룹(KUNMT Group)을 꾸려 박 연구원이 기계번역 연구 겸 조직 운영을 겸하게 했고요. (당시 4명의 팀원과 쓴 논문만 100여편에 이른다고 합니다.)
이후 업스테이지에서는 그가 수년 간 연구한 지식과 경험을 서비스로 구체화할 자유와 현재 AI 산업에서 경쟁이 가장 치열한 LLM 파트에서 일할 기회를 부여했죠. 돌아보면 박 연구원의 20대는 그에게 누구도 ‘도태될 틈’을 주지 않은 셈인데요. 그 과정에서 쌓인 경험과 지식, 노하우가 곧 수많은 논문의 바탕이 되기도 한 것이기도 합니다.
적성? “원하면 만드는 것”
여기에 ‘열심히 하면 적성이될 것’이란 그의 단순하고 황당한 생각이 또다른 원동력이었습니다. 사실 박 연구원은 문과 출신입니다. 제게 “저는 과학보다 사회과학, 생활과 윤리와 같은 과목을 좋아했고, 성향도 수식을 대하는 것보다 사람을 대하는 것을 좋아했습니다. 꿈은 선생님이었어요”라고 말했죠. 그런데 그가 지금 이과의 정점인 AI 분야에서 AI만큼 일하는 사람이 됐습니다. 아이러니한데, 알고보니 약간의 착각(?)에서 시작된 일이었습니다.
찬준: “4년 장학금을 준다는 말에 부산외대 언어처리창의융합과를 선택했어요. 입학 후 알고보니 자연어처리 기반 AI를 배우는 곳이더라고요. 그러면서 처음으로 ‘C언어’라는 프로그램 코딩용 언어를 접했는데 배우면서 굉장히 고생한 기억이 납니다. 하지만 그때부터 열심히하면 언젠가 적성이 될 것이란 생각으로 악착같이 공부했어요”
다소 무모해 보인 이 집념은 결국 ‘될 것’을 ‘됨’으로 만들어 버렸습니다. 그 가운데 자연어처리 기술의 매력을 깨닫고, 그 꽃은 기계번역이란 생각으로 본격적인 적성 재조정을 완성해냈죠. 이후는 앞서 언급한 것과 같은 ‘직진’이었습니다. 이어서 지금은 자연어처리와 기계번역에서의 배움 및 노하우를 한단계 확장할 수 있는 LLM을 만나 관련 분야의 주목받는 신성으로 성장하고 있죠.
참고로 ‘Large Language Models, 거대언어모델‘의 약자인 LLM은 현재 전세계 AI 산업에서 가장 핫한 카테고리입니다. 쉽게 비유하면 인간과 AI의 소통을 책임지는 ‘핵심 통역 시스템’이죠. 예컨대 챗GPT가 사람의 말을 놀라울 정도로 잘 알아듣고, 또 자연스러운 문장으로 답할 수 있는 건 고성능 LLM ‘GPT’의 영향력이 큽니다.
박찬준과 업스테이지
다르지만 같은 두 가치의 만남
우리는 환경을 잘못 만난 천재가 둔재로 살아간 일들을 역사 속 여러 페이지에서 찾아볼 수 있습니다. 인재가 회사를 만나는 일도 다르지 않습니다. 하지만 나와 핏(Fit)이 맞으면서 내 능력을 꽃 피울 환경까지 제공해줄 회사를 찾는 건 참 쉽지 않은 일인데요. 그런 면에서 지금의 박 연구원과 업스테이지는 기막힌 ‘꿀조합’을 자랑 중입니다.
먼저 박 연구원이 설정한 커리어 측면의 가치관은 그가 만든 ‘Value driven LLM(가치 중심 LLM)’이란 말을 실현하는 삶입니다. 이 가치관의 큰 키워드는 ‘공유에 기반한 공동성장‘으로 정리되는데요. 실제로 박 연구원이 그간 만든 족적은 대부분 매출보단 업계 내 AI 데이터 및 LLM 생태계 확산에 도움을 주는 서비스와 기술 비중이 높았습니다.
가까운 예로 최근 업스테이지는 자사의 모든 AI 데이터 전처리 노하우를 담은 데이터버스를 무료로 공개한 일이 있죠. 데이터 전처리는 AI가 학습할 데이터 중 ‘쓰레기’를 걸러내고 가장 양질의 데이터만 효율적으로 학습시키기 위한 가공 작업을 말하는데요. 적은 양의 학습 데이터로 최상의 성능을 구현하는 것이 ‘좋은 AI의 미덕’ 중 하나인 만큼 데이터 전처리의 중요성은 결코 무시할 수 없는 것입니다.
그런데 데이터버스는 그 핵심 노하우를 대중에 값없이 공개한 사례입니다. 이를 통해 더 많은 기업, 연구소, 연구자들이 데이터 전처리의 시행착오를 줄이며 양질의 AI 모델을 만들 수 있고, 그들의 경쟁이 곧 AI 산업의 전체 수준을 더 빠르게 끌어 올릴 것이란 믿음이 바탕이었는데요. 실제로 이런 기대는 소스코드 공개의 선순환을 통해 더 나은 응용코드가 끊임없이 개발되며 소프트웨어 산업을 빠르게 발전시킨 오픈소스 운동의 성공이 앞서 증명한 바 있습니다.
그런데 이런 박 연구원의 가치관은 스토리팩 기술편에 소개된 업스테이지의 창업 슬로건 ‘Making AI beneficial‘과도 정확히 일치합니다. ‘AI의 유익을 누구나 쉽게 누리도록 한다’는 의미죠. 이를 바탕으로 그동안 업스테이지는 쉽게 쓸 수 있는 고성능 AI 솔루션 개발에 집중하면서 동시에 개방과 공유에도 적극적인 행보를 보여왔습니다.
만약 한창 성장 중인 업스테이지가 이윤을 최우선으로 했다면 리더보드 운영이나 데이터버스 공개 같은 활동은 뒷전이었을 겁니다. ‘당장 돈이 되는 일’과는 거리가 머니까요. 애초에 박 연구원 같은 실력자를 그런 업무에 투입하는 일도 없었겠죠. 그러나 업스테이지는 공유와 조력의 가치를 잘 압니다. 지금은 LLM팀과 함께 ‘Evalverse‘란 이름의 LLM 평가 생태계 구축을 돕는 오픈소스 프로젝트도 공개를 앞두고 있습니다. 박 연구원이 꿈꾼 ‘Value driven LLM’은 업스테이지의 ‘Making AI beneficial’과 만나 지금도 현재진행형이란 의미죠.
찬준의 광기를 한스푼 얹어보니
이 가운데 업스테이지는 현재 LLM 부문에선 어지간한 국내 대기업들보다 주목받는 이정표를 세워가는 중입니다. 그 이력을 살피다 보면 ‘스타트업이 이만한 일을 선수쳤다고?’라는 생각이 드는 사건들이 여럿 있는데요.
이를테면 자체 개발한 LLM ‘솔라(SOLAR)‘가 ‘LLM 계의 빌보트 차트’인 허깅페이스 Open LLM 리더보드에서 글로벌 기업들이 만든 모델을 제치고 1위를 차지한 일이 대표적이죠. 그 여세를 몰아 ▲한국어 특화 LLM들이 경쟁하는 Open Ko-LLM 리더보드를 만들어 성공적으로 안착시킨 일 ▲LLM 데이터 저작권 문제 해결과 데이터 공유 생태계 형성을 위한 국내 ‘1T 토큰클럽‘을 결성한 일 등 하나하나가 굵직한 일들 뿐입니다.
특히 한국어 특화 LLM 리더보드, 데이터버스는 허깅페이스와 깃허브에서도 큰 호평을 받았습니다. 이것이 글로벌 공략에 박차를 가하고 있는 업스테이지의 해외 인지도 제고에 큰 역할을 하고 있는데요. 더불어 글로벌 기업 및 AI 분야의 유명 플랫폼, 인재들이 먼저 업스테이지의 문을 두드리게 하는 접점 역할도 해내고 있습니다. 이를 바탕으로 업스테이지는 솔라를 비롯한 자사의 핵심 제품들의 비즈니스 판로를 빠르게 개척해 나가는 중이고요. 목표와 전략을 명확히 설정한 공유의 가치는 눈앞의 매출로만 환산할 수 없는 상생 효과를 가져온다는 점을 증명한 대목입니다.
박 연구원들 이들 프로젝트에 모두 깊이 관여했습니다. 특히 open Ko-LLM 리더보드나 데이터버스 프로젝트는 아예 설계와 개발을 총괄했죠. 180여편의 논문을 쓴 그의 경험과 실력, 광기가 업무에 적용되자 벌어진 일들인데요. 당연히 혼자만의 성과는 아닙니다. 현재 그가 리딩하는 데이터 센트릭 LLM팀에는 박 연구원이 각 분야의 “일품”이라며 치켜 세운 5명의 팀원(이수경, 김윤기, 김지후, 양성훈, 안창배)이 함께 시너지를 발휘하고 있죠.
하지만 그를 바라보는 눈은 안팎이 크게 다르지 않더군요. 김윤기 엔지니어는 박 연구원에 대해 “겉으로 무리라고 보이는 일을 목표로 잡고 어떻게든 해내는 사람”이라는 평가를 보내왔습니다. 적성을 노력으로 만든 경험을 발판 삼아 지금도 그런 삶을 살아가고 있다는 얘기죠. 확실히 범인의 상식으론 이해하기 어려운 독특함을 지닌 사람이네요.
동사로 꾸는 ‘꿈’
박 연구원은 “지금이 굉장히 재미있고 즐겁다”고 말합니다. 일도, 논문도, 심지어 이런 인터뷰조차 그래보입니다. 여담이지만 이번 콘텐츠를 준비하며 보낸 질의서에 박 연구원은 바쁜 해외학회 출장 중에도 1만4000자에 달하는 방대한 답변서를 보내왔습니다. 질문은 고작 5개였는데 말이죠. 동시에 글자 빼곡한 그 답변서에서도 직접 대면하며 느꼈던 그의 눈빛과 음성, 텐션이 그대로 담긴듯 해 웃음이 났습니다. 오히려 제가 논문을 하나 써야하나 싶더군요.
이를테면 ‘박찬준이 취미로 논문을 쓰는 것이 인터뷰에 미치는 영향 : 답변서로 기자를 괴롭히는 실험 (The Impact of Park Chan-jun Writing Papers as a Hobby on Interviews: An Experiment in Tormenting Journalists with Responses)‘ 같은 것 말이죠. 물론 진지하게 농담입니다.
끝으로 박 연구원의 큰 목표는 멀리 나아가 국가 단위 LLM 생태계 조성에 기여하는 것이라고 합니다. 그간의 행보는 모두 이 목표를 이루기 위한 ‘프리퀄’일지 모르겠네요. 지금도 불가능을 가능으로 만든 일들을 해내고 있기에 이 목표도 반드시 실현하리라 기대됩니다. 아울러 그가 몸 담은 업스테이지도 지금은 LLM을 발판 삼아 글로벌 탑티어 AI 회사로 발돋움하기 위한 전사적 역량을 기울이는 시기니까요. 궁극적으로 회사의 가치와 인재의 능력, 방향성이 일치할 때 나타날 놀라운 결과물에 대해서 업계도 계속 주목해볼 만한 가치가 충분해 보입니다.
“저는 꿈을 명사로 꾸는 것이 아닌 동사로 꾸는 삶을 살아가고 있습니다. 즉 저의 꿈은 ‘가르치다’라는 동사입니다. 아울러 ‘Overflow’라는 키워드를 말씀드리고 싶습니다. “흘러넘치게 하라”는 말인데, 지식과 열정을 흘러 넘치게하여 주위 동료들에게 긍정적인 영향을 주는 사람이 되는 것이 목표입니다. 남을 도울 때, 내가 성장한다는 사실도 항상 기억하겠습니다.” – 박찬준