생성형AI 기본 개념
인간의 창의력을 모사한 AI
생성형 인공지능(Generative AI)은 사용자의 명령을 받아 특정 결과물을 ‘창작’할 수 있는 AI입니다. 창작의 범주는 글, 그림, 영상, 음악 등 다양하며 결과물은 AI의 사전학습 데이터를 바탕으로 만들어집니다. 생성형 AI의 활용처는 생산성 작업부터 예술까지 무궁무진합니다. 특히 인간의 창의력이 무한한 것처럼, 인간의 창의력을 모사한 생성형 AI의 가장 큰 특징도 ‘한계를 정의하기 어려운 창작 능력’이라고 할 수 있습니다.
생성형 AI의 기술 특징
생성형 AI의 뿌리 ‘딥러닝’
생성형 AI의 창작 원리를 이해하려면 먼저 딥러닝을 알아야 합니다. 딥러닝은 2016년 바둑AI ‘알파고’ 덕분에 유명해진 AI 학습 기법이죠. 주어진 데이터에서 반복되는 특징과 규칙을 찾아내는데 특화되어 있습니다. 가령 고양이 사진을 많이 학습한 딥러닝 AI는 어떤 사진에서도 고양이를 정확하게 찾아내곤 합니다. 또한 수많은 바둑 대전 데이터를 학습한 알파고는 돌을 하나 놓을 때마다 승률이 가장 높은 ‘필승의 수’만 골라냄으로써 이세돌 9단을 꺾을 수 있었습니다.
이런 딥러닝의 특징은 좋은 데이터를 많이 학습할수록 결과물이 점점 더 정확하고 정교해진다는 점입니다. 하지만 단순히 규칙과 패턴을 찾아내는 능력만으로 새로운 것을 만들도록 할 수는 없었죠.
이에 연구자들은 기발한 방식으로 이 문제를 해결했습니다. 하나의 딥러닝 모델이 아니라 ‘생성자’와 ‘판별자’란 두 가지 딥러닝 기반 AI를 만들어 싸움을 붙인 겁니다. 이를 ‘적대적 생성 신경망(GAN, Generative Adversarial Networks)’이라 부릅니다.
AI의 콘텐츠 생성 프로세스
예를 들어 생성형 AI에 “어리고 귀여운 강아지를 그려줘”라고 명령해보죠. 아래는 실제로 AI가 그린 그림입니다. 겉보기엔 강아지 같은데 자세히 보니 조금 이상합니다. 귀가 위아래로 2쌍인 데다가, 한쪽 귀는 삐죽한 고양이 귀를 닮았습니다. 눈도 고양이처럼 노랗네요. 또 어린 강아지보단 성견에 가까운 느낌입니다. 우리는 이런 고양이와 강아지의 특징을 경험적으로 알고 있기 때문에 이 그림이 ‘어딘가 이상한 강아지’라고 판단할 수 있습니다. 이때 강아지를 그린 AI가 생성자, 결과물을 검토한 우리는 판별자 역할을 했습니다.
생성자는 왜 고양이의 특징이 섞인 강아지를 그렸을까요? 모든 데이터를 0과 1로 이뤄진 디지털 데이터로 인식하는 컴퓨터나 AI는 사람과 사물의 특징을 정의하는 체계가 완전히 다르기 때문입니다. 그래서 사람은 쉽게 구분하는 강아지와 고양이의 차이점도 AI에겐 구분하기 어려울 때가 있습니다. 생성자와 판별자가 반드시 함께 상호보완되어야 하는 이유입니다.
어쨌든 마음에 들지 않는 강아지 그림이 나왔으니 틀린 부분을 지적하고 “다시 그려달라”고 요구할 수 있습니다. 그리고 아래처럼 누가 봐도 어리고 귀여운 강아지 그림이 만들어졌네요. 이처럼 겉으로 보이지 않아도 생성형 AI들이 내놓는 결과물들은 모두 내부에서 생성자와 판별자가 치열한 창과 방패의 싸움을 벌인 결과라고 이해하면 되겠습니다.
이는 사람의 창작 과정과 유사합니다. 사람이 강아지를 그리는 능력을 갖게 되는 과정도 시작은 ‘강아지의 생김새’와 ‘강아지는 어떻게 그리는지’에 대한 학습이 우선입니다. 아이들도 처음에는 다른 사람의 그림을 따라 그리다가 나이를 먹을수록 점차 자신의 스타일대로 구체적인 특징을 지닌 강아지를 그릴 수 있게 되죠.
이 과정에서 다른 그림과 비교해 스스로 자신의 그림을 검토해 보거나 타인의 평가를 바탕으로 그림의 품질도 점점 개선될 수 있습니다. 어떤가요? ‘학습(데이터) → 생성(모사) → 내부평가(AI) → 외부평가(사람) → 수정 → 최종 결과물‘의 순서로 만드는 AI와 사람이 방식이 비슷한 것을 알 수 있습니다.
생성형 AI의 활용사례
생성형 AI의 특징을 활용하면 딥러닝 못지않게 다양한 분야에서 활용할 수 있습니다. 특히 현재 대부분의 생성형 AI는 LLM(거대언어모델) 기반으로 사용자와 자연어 소통이 가능합니다. 사람이 AI에게 원하는 것을 명확하게 요구할 수 있다는 의미입니다. 그만큼 무엇을 명령하는가에 따라 정말 다양한 형태의 결과물을 만들어낼 수 있죠. 대개 서비스 개발사가 설계한 대로만 작동하는 딥러닝과 생성형 AI의 중요한 차이점입니다.
그럼 실제 사용자들은 주로 어떤 분야에 생성형 AI를 사용하고 있을까요? 국내 유명 미디어랩 ‘메조미디어’가 2023년 만15세부터 59세까지의 남녀 1000명을 대상으로 실시한 ‘생성형 AI에 대한 소비자 인식 조사’에서 응답자들이 사용해 본 생성형 AI 종류 1~3위는 크게 ▲글(23%) ▲그림(18%) ▲영상(15%) 순이었습니다. 모두 일상에서 쉽게 접할 수 있고 다양한 응용이 가능한 분야죠.
글
글자 중심의 생성형 AI는 가장 보편적입니다. ▲오픈AI의 챗GPT ▲마이크로소프트(MS)의 빙챗 ▲네이버의 하이퍼클로바X ▲구글의 바드 등이 유명하죠. 각 서비스의 특징은 조금씩 다릅니다만, 주로 정보를 검색·요약하거나 특정 서식의 문서를 만드는 일, 글 기반의 콘텐츠를 창작하는데 쓰입니다.
예를 들어 AI에게 정보를 제공한 뒤 “뉴스 형태로 작성해달라”고 요청하거나 “이메일을 써달라”고 요청할 수 있습니다. 결과물의 문체를 바꾸거나 번역을 요청할 수도 있죠. 혹은 AI에게 특정한 역할을 지정한 뒤 그 역할에 알맞은 답을 하도록 할 수도 있습니다. 수학 계산도 가능하고, 예제를 만들고, 소설의 시나리오를 쓰는 등 정말 다양한 일을 할 수 있습니다.
이런 글자 중심 생성형 AI의 강점은 직관성입니다. 세상의 모든 언어는 정해진 규칙대로 구성되므로 사람이 쓴 글이나, AI가 쓴 글이나 누구든 그 의미와 의도를 파악하기 쉽습니다. AI의 글은 정보가 틀릴 순 있어도 맞춤법이 틀리는 경우는 보기 힘들죠. 결과물 내에서 보완이 필요한 부분도 정확히 지정할 수 있습니다. 덕분에 사용법을 몰라도 초보적인 형태로는 누구나 쉽게 쓸 수 있죠.
그림
그림은 생성형 AI 서비스 분야 내에서도 주목도가 점점 높아지고 있는 영역입니다. ▲오픈AI의 ‘달리(DALL·E) ▲미드저니(개발사, 서비스명 동일) ▲어도비의 파이어플라이 ▲스태빌리티AI의 드림스튜디오 등이 가장 널리 쓰이는 이미지 생성형 AI 서비스입니다.
대중이 이미지 생성형 AI에 주목하는 이유는 글자 이상의 ‘변화무쌍함’과 낮아진 ‘그림 제작의 허들’ 때문으로 풀이됩니다. 그림은 글과 달리 특정 스타일이나 화풍 정도가 있을 뿐 정형화된 규칙은 없죠. 또한 시각적으로 매우 다채로운 표현이 가능합니다.
위에 예시로 제시한 ‘어리고 귀여운 강아지’를 100명이든 1000명이든 제3자 누구에게든 그려달라고 하면 모든 다른 모습의 강아지를 그릴 겁니다. 각자가 귀여운 강아지를 떠올리는 기억과 경험이 다르고 그림을 그리는 스타일도 다르기 때문입니다. 심지어 같은 사람에게 같은 요구를 해도 매번 조금씩 다른 강아지를 그릴 수 있습니다. 이는 다양한 데이터와 스타일을 학습한 생성형 AI에서도 동일하게 나타나는 현상입니다.
다만, 그림은 어려서부터 누구나 배우고 쓰는 글보다 진입 장벽이 높습니다. 재능을 타고나거나 체계적으로 배우지 않으면 복잡하고 화려한 그림을 그리기란 어려운 일이죠. 생성형 AI는 이 제약을 단숨에 헐어버렸습니다. 사용자가 드로잉과 채색 기법을 전혀 몰라도 됩니다.
단지 “귀여운 강아지를 그려줘”라고 한마디만 하면 AI가 단순한 그림책 스타일이든, 유명 화가의 화풍이든 순식간에 그럴듯한 그림을 만들어내니까요. 이 덕분에 많은 사람이 내재된 자신의 창의력을 이미지 생성형 AI를 통해 현실로 구현하며 즐거움을 느낄 수 있게 됐죠.
단순 재미로만 쓸 수 있는 게 아닙니다. 예술가들은 이미 생성형 AI로 다양한 디지털 아트 작품을 만들고, 디자이어들은 업무에 필요한 로고나 포스터, 썸네일 등을 만들어 활용하고 있습니다. 최근 언론사에서도 뉴스에 참고 사진으로 생성형 AI로 직접 만든 이미지를 삽입하는 경우가 늘어나는 추세입니다.
영상
이미지, 글, 소리 등 다양한 멀티미디어 요소가 어우러진 영상은 그림보다 진입 장벽이 높은 분야입니다. 하지만 생성형 AI는 이 장벽도 점차 허물고 있습니다. 아직 그림보다 다소 제한적이지만 영상 제작 분야도 이미 생성형 AI가 제작의 수고를 훨씬 덜어주는 서비스들을 찾아볼 수 있거든요.
이런 서비스들은 대개 만들고 싶은 영상의 설명과 자막을 사용자가 입력하면 AI가 이에 맞춰 자동으로 영상을 만들어주는 형태를 보입니다. ‘픽토리(Pictory)’나 ‘비디오스튜’ 같은 서비스를 예시로 들 수 있고, 내용과 관련된 영상과 음성, 애니메이션 효과 등을 자동 생성해 주므로 누구나 쉽게 영상을 만들 수 있게 되죠.
혹은 내 모습을 촬영하고 대본을 입력하면 나를 닮은 아바타가 직접 읽고 말하는 것처럼 만들어주는 ‘헤이젠’ 같은 서비스도 있습니다. 내 음성을 외국어로 번역할 수도 있어서 특히 강의 영상을 만드는 이들에겐 유용할 수 있습니다. 또한 글로벌 숏폼영상 플랫폼 ‘틱톡’이 만든 영상편집툴 ‘캡컷’도 AI를 활용한 영상 콘텐츠 분야에서 톡톡 튀는 아이디어와 기능을 다수 제공하면서 사용자들에게 큰 호응을 받는 서비스 중 하나입니다.
기타
이 밖에도 음악을 작곡하는 AI, 프로그램 코딩하는 AI, 게임 제작 AI 등 이미 상상할 수 있는 많은 영역에 생성형 AI 기술이 접목되고 있습니다. 질 좋은 AI 모델과 학습 데이터, 컴퓨팅 인프라만 있으면 사실상 어떤 디지털 콘텐츠에도 융합해볼 수 있는 수준이죠. 앞서 전세계 AI 산업의 붐을 이끈 딥러닝도 이미 다양한 산업 및 일상 서비스에서 널리 활용되고 있습니다. 앞으로 몇년은 생성형 AI가 이 길을 밟을 것으로 예상되네요.
생성형 AI 잘 쓰는 법
조건과 예시를 명확히 제시하라
챗GPT를 비롯한 대부분의 생성형 AI 서비스는 간단한 명령만으로 지금도 꽤 만족스러운 결과를 만들 수 있습니다. 하지만 약간의 요령을 더하면 훨씬 더 나은 결과물을 만들 수 있다는 사실, 알고 계셨나요? 대개는 명령을 더 구조적이고 구체적으로 할수록 원하는 결과를 만드는 데 유리합니다.
사실 이 점도 사람과 다르지 않은데요. 친구에게 단순히 “강아지를 그려봐”라고 말할 때보다 “꼬리가 짧고 눈이 동그랗고 갈색 털을 지닌 강아지를 그려봐”라고 말할 때 훨씬 빠르게 원하는 결과물을 얻을 것이 당연한 것처럼요.
생성형 AI도 명령어 속에 웬만한 묘사를 이해하고 그에 상응한 결과물을 냅니다. 하지만 ‘좋은 설명’과 ‘나쁜 설명’이 있듯이 같은 명령이라도 AI가 사용자의 의도를 더 잘 이해한 결과물을 만들 수 있도록 유도하는 스킬이 있습니다. AI 연구자들은 이를 ‘프롬프트 엔지니어링(Prompt Engineering, 명령문 설계)’이라고 부르는데요. 쉽게 말하면 ‘생성형 AI와 더 똑똑하게 대화하는 법’ 정도로 설명할 수 있습니다.
예시를 하나 살펴보죠. 국내 생성형 AI 플랫폼 ‘뤼튼’ 공식 홈페이지에 게시된 프롬프트 엔지니어링 예시입니다. 생성형 AI로 특정 ‘페르소나(인물의 성격적 특징)’를 만드는 방법인데요. 프롬프트를 보면 단순히 “25세 수의학과 여대생 페르소나를 만들어줘”가 아니라 만들고자 하는 페르소나에 필요한 요소들을 정확히 명시하고 있습니다. 이렇게 필요한 요소를 사전에 지정하면 불필요한 명령을 반복할 필요없이 빠르게 원하는 결과물을 얻을 수 있습니다.
또한 생성형 AI는 창의력을 발휘하되 사용자의 요구조건 달성을 최우선으로 합니다. 따라서 질문에 답변의 예시를 적어주는 것도 좋은 방법인데요. 아래 예시처럼 “i am 신뢰에요.”처럼 어떤 유행어가 있고, 그것을 자연스럽게 활용한 예시를 만들고 싶다면 예시를 지정는 방식이 가장 단순하면서도 다양한 예시를 효과적으로 얻을 수 있는 방법이 됩니다.
요구사항을 명확히 하고 답변에 대한 예시를 제공하는 방식은 누구나 쉽게 따라할 수 있으면서 생성형 AI를 보다 효과적으로 쓸 수 있는 대표적인 노하우입니다. 이 외에도 여러 분야에 응용 가능한 프롬프트 엔지니어링 기법이 다양하게 존재하는데요. 보다 구체적인 사례와 원리는 별도의 콘텐츠에서 다시 다루도록 하겠습니다. 우선 기본적인 핵심은 생성형 AI를 ‘어린아이’로 생각하고 어른이 아이에게 설명하듯 최대한 단순하고 명확하게 명령어를 구성하는 것이 효과적이란 점입니다.
생성형 AI의 명암
웹 2.0의 혁신, AI에서 재현될 것
생성형 AI의 등장은 분명 놀라운 혁신입니다. 앞서 딥러닝이 AI 역사의 긴 겨울에 마침표를 찍고 새로운 봄을 알렸다면, 생성형 AI는 그 봄의 온기를 모두가 누릴 수 있도록 만들었기 때문입니다.
딥러닝은 대중의 입장에서 ‘일방향적 혁신’이었습니다. 그동안 딥러닝 기반으로 뛰어난 검색, 추천, 최적화 서비스들이 홍수처럼 쏟아져 나왔지만 대부분 ‘완성품’과 다를 바 없는 서비스였습니다. 사용자들은 만들어진 서비스를 이용할 뿐 딥러닝을 이용해 직접 무언가를 만드는 일은 어려웠죠. 또한 눈에 보이는 기술이 아니므로 특정 서비스나 제품에 적용된 딥러닝 모델이 얼마나 뛰어난 것인지, 혹은 성능이 과대포장된 것인지 입증하기도 쉽지 않았고요.
생성형 AI는 다릅니다. 챗GPT를 포문으로, 현재 대부분의 생성형 AI는 일반 사용자들이 직접 원하는대로 쓸 수 있도록 개방되어 있습니다. 이를 통해 글, 그림, 영상 활용사례 예시에서 설명했듯 자신의 상상력을 다양한 형태로 빠르게 현실화할 수 있죠. 높디높았던 전문 기술의 장벽도 허물어 버리고 있습니다.
이 변화는 과거 인터넷 콘텐츠의 생산이 소수의 정보 제공자 중심으로 이뤄졌던 ‘웹 1.0’ 시대에서 일반 사용자제작 콘텐츠(UCC) 중심의 ‘웹 2.0’ 시대로 전환된 뒤 보여진 웹의 폭발적인 성장을 떠올리게 합니다. 당시 누구나 정보 생산자가 되면서 대중이 접하는 정보의 양이 급증했으며, 공개된 정보를 기반으로 더 나은 2차, 3차 가공 콘텐츠가 쏟아지는 선순환의 반복이 이뤄졌죠. 이제 기업과 연구자에서 대중의 손에 넘어간 AI도 비슷한 결과를 가져올 것으로 기대되고 있습니다.
기준이 모호한 AI 데이터·사용 윤리
반면 생성형 AI 대중화에 따른 부작용도 분명합니다. 특히 저작권과 개인정보 침해, 윤리적 문제가 두드러지는데요. 생성형 AI가 만드는 창작물은 모두 ‘사전학습 데이터’ 기반입니다. 이 말은 즉, 데이터가 없으면 생성형 AI의 뛰어난 알고리즘도 무용지물이란 얘기죠.
혹시 ‘챗GPT는 과연 그 많은 질문에 대한 대답을 어떻게 다 할 수 있을까?’같은 의문을 가져본 적 있나요? 알려진 바에 따르면 챗GPT는 수백GB(기가바이트) 이상의 데이터를 학습한 GPT 3.5 모델을 기초로 출시되었습니다. 이는 500페이지 도서 기준 수십만권에 해당하는 방대한 양입니다. 수천종 이상의 백과사전 전집을 학습하고 있는 것과 같다는 거죠. 당연히 그만큼 다양한 분야에 대한 답을 내놓을 수 있습니다.
그런데 그 방대한 데이터의 저작권은 다 해결했을까요? 그 점은 정확히 알려져 있지 않습니다. 물론 저작권 시효가 지났거나 누구나 쓸 수 있는 공개된 데이터도 적지 않지만 무단수집된 데이터가 생성형 AI 서비스에 사용됐다는 문제가 심심찮게 제기되곤 합니다. 이와 관련해 최근 유명 언론사인 ‘뉴욕타임스’가 챗GPT 개발사인 오픈AI를 상대로 뉴스 기사 저작권 침해 소송을 제기한 일이 있었죠.
AI 학습용 데이터 활용 방안을 두고 업계에선 의견이 갈립니다. AI 개발사들은 “사소한 데이터까지 모든 저작자에게 일일이 허락을 받고 쓰려면 서비스 개발이 그만큼 어려워질 것”이란 입장이고요. 데이터 저작권자들은 “사소한 콘텐츠도 모두 법적인 보호를 받는 저작물이니 정당하게 허락을 받거나 사용료를 내야 한다”는 입장입니다.
학습 데이터 수집, 활용 방법에 대해선 사회적, 국제적 합의가 꼭 필요해 보입니다. 이를 명확히하지 않으면 개인정보 무단수집을 막을 수 없고 불법 정보를 활용한 제2, 제3의 불법 가공 콘텐츠가 쉽게 만들어져 유포될 수 있습니다. AI 기술 악용의 대표적 사례로 꼽히는 ‘딥페이크(불법합성 영상물)’도 하나의 예시죠. 또한 비도덕적인 내용을 담은 콘텐츠나 가짜 뉴스도 손쉽게 만들어져 유포될 가능성도 있습니다.
생성형 AI의 품질 관리도 중요한 문제입니다. 잘못된 데이터를 학습한 AI는 필시 잘못된 결과물을 내놓게 됩니다. 어쩔 수 없는 한계죠. 문제는 생성형 AI가 내놓은 답이 옳은 답인지 틀린 답인지 판단하는 몫도 사용자에게 돌아온다는 점입니다. 이때 사용자가 AI 활용 분야에 대한 전문성이 없다면 그것을 알아채기란 쉽지 않죠.
게다가 생성형 AI의 특징은 모든 답변을 ‘그럴듯하게’한다는 것입니다. 이 과정에서 틀린 답도 맞는 답처럼 포장하기도 하고, AI 자신이 학습하지 않은 정보도 꾸며내서 말하기도 합니다. 이를 AI의 ‘환각효과(Hallucination, 할루시네이션)’이라고 부르는데요. 사용자 요구에 맞춘 콘텐츠 창작이 주기능인 생성형 AI의 구조적 한계 중 하나로 꼽힙니다. 따라서 AI 개발사들은 양질의 데이터 사용과 알고리즘 최적화로 할루시네이션을 최소화하고, 사용자들은 생성형 AI의 올바른 사용법을 숙지해야 부작용을 최소화할 수 있습니다.