EDITOR 이건한
2023-12-29

스크립트

챗GPT 개발사에 ‘학습료’ 내라는 뉴욕타임스

뉴욕타임스가 최근 MS와 오픈AI를 고소했습니다. 챗GPT AI 학습에 자사 뉴스를 무단 사용했다는 주장인데요. 최근 챗GPT 등 생성형 AI가 인기를 끌면서 학습용 데이터 관련 저작권 갈등이 심화되고 있어요. 뉴스 뿐 아니라 그림 작품의 무단 사용 의혹들도 제기되면서 예술가와 기업 간 소송전도 확대되어가는 분위기죠.

이에 일부 AI 기업은 사용료 계약에 합의하기도했어요. 오픈AI는 뉴욕타임스 고소 이전에 AP통신과 뉴스 사용에 합의했고 애플도 일부 언론사, 출판사와 AI용 콘텐츠 사용 계약을 했어요. 하지만 AI 학습용 데이터 관련 갈등은 계속 확대될 전망이에요. 정보통신정책연구원은 대기업이 AI 학습 데이터를 공개 안 하는 건 저작권 문제를 해결하지 못했기 때문이라고 지적하기도 했죠.

또한 무분별한 데이터 무단수집을 규제해야 한다는 지적도 따릅니다. 최근 부산대 무료 맞춤법 서비스가 AI 학습 목적으로 추정되는 과도한 접속 때문에 망사용료 폭탄을 맞은 사례도 있거든요.

배경 스토리

똑똑한 AI는 깔끔한 데이터를 원해

최근 뉴욕타임스처럼 잘 정제된 정보형 자료를 대량 보유한 언론사들의 기사가 생성형 AI 개발 기업들의 타깃이 되고 있습니다. AI를 구성하는 주요 요소 가운데 ‘학습용 데이터’가 있기 때문인데요. 아무리 성능 좋은 알고리즘을 지닌 AI라도 알고리즘을 활용할 지식(데이터)가 없으면 무용지물이겠죠. 그리고 아무 데이터나 학습해도 좋은 건 아닙니다. 거짓 없고, 신뢰할 수 있으면서 구성 요소별로 내용 정리가 쉬운 데이터를 쓰는 것이 중요합니다. 거짓 데이터를 학습한 AI는 거짓을 진짜처럼 말할 수밖에 없고, 구조가 엉망인 데이터를 학습한 AI는 학습량에 비해 아는 것이 적을 수밖에 없거든요.

AI가 가장 좋아하는 데이터 = 뉴스

이 가운데 ‘좋은 학습용 데이터’의 조건을 가장 잘 갖춘 게 뉴스 기사입니다. 뉴스의 내용은 신뢰도가 높고 기자들은 정확한 문장과 어휘를 구사하며 기사를 작성하기 때문이죠. 기사는 군더더기가 적기 때문에 AI가 핵심내용과 부수적인 내용을 구분해서 학습하는 측면에서도 유리합니다. 무엇보다 대부분의 뉴스 기사는 인터넷에 무료로 공개되어 있기 때문에 수집도 어렵지 않다는 장점이 있습니다. 즉, AI 개발사 입장에서 언론사 홈페이지의 기사를 크롤링(데이터 수집)하는 건 가장 좋은 데이터를 가장 저렴하고 빠르게 확보할 수 있는 지름길인 셈입니다.

그러나 언론사들은 AI 개발사들의 이런 행위에 반발하고 있어요. 기사가 무료로 공개되어 있다고 해도 모두가 무료로 사용할 수 있다는 건 아니니까요. 기사에도 엄연히 저작권이 존재하며, 우리가 기사 본문을 통째로 복사해서 개인 블로그 등에 게시했을 때 법적으로 처벌받을 수 있는 것과 같습니다.

그 화풍을 AI가 어떻게 알지?

또 영상에도 언급된 것처럼 데이터 무단수집 논란은 예술계로도 확대되는 추세에요. 요즘 요청한 그림을 뚝딱 그려주는 생성형 AI도 많죠? 그 또한 AI가 수많은 사진과 그림을 학습했기에 가능한 결과물인데요. 문제는 그 방대한 분량의 데이터를 어디에서 구했냐는 거죠. 이에 따라 일부 예술가들은 자신만의 화풍을 모방한 AI를 두고 자신의 작품을 협의 없이 무단으로 학습한 것이 분명하다며 반발하기도 합니다.

데이터 도둑질에 신음한 부산대

한국에서 유명한 ‘부산대 맞춤법 검사기’ 서비스의 경우 아예 경제적 손해를 입기도 했습니다. 2023년 7월 미디어에 따르면 부산대 인공지능 연구실은 그해 3월 초부터 4월 중순까지 한 달간 경기 남부지역의 한 IP 주소에서 500만건 이상의 접근 시도가 이뤄졌다고 밝혔는데요. 평소 전체 사용자가 한달 간 사용할 분량의 트래픽을 이 IP주소 한 곳이 추가로 사용하면서 연구실이 큰 네트워크 비용을 물게 된 사건입니다. 연구실에서는 이 사건이 누군가 AI 언어 학습에 필요한 데이터를 무료로 확보하기 위해 벌인 소행으로 분석했죠.

뉴스 & 인사이트

정부의 AI용 데이터 가이드라인

문제는 생성형 AI가 사회의 주류 기술로 부각되면서 당분간 다양한 곳에서 앞선 사건들과 유사한 갈등을 빚어낼 것으로 예상되는 점입니다. 서비스를 쉽게 개발하려는 개발사와 데이터를 지키려는 저작권자의 싸움이죠. 이 가운데 주목할 점은 최근 정부가 직접 ‘생성형 AI 저작권 안내서’란 이름의 가이드라인을 공개한 겁니다. 문화체육관광부가 2023년 12월27일 공개한 해당 가이드라인은 ‘생성형 AI 학습용 데이터를 사용하려면 저작권자에게 적절한 보상이 필요하다’는 내용을 담고 있는데요. 가이드라인은 법적 강제성이 없지만, 정부가 직접 공표하는 것이므로 기업이 마냥 무시하기 어려운 부분이 있습니다.

데이터 주인과 어떻게 다 협의하나

이를 두고 벌써부터 잡음이 흘러 나오기도 합니다. 우선 기업 측인 한국소프트웨어산업협회(KOSA) 산하 초거대AI 추진협의회는 “권고대로라면 방대한 학습 데이터의 이용 목적과 사용 기간 등을 저작권자와 일일이 협의해야 한다는 의미”라고 반발했는데요. 적게는 수백만건, 많게는 수천만건 이상의 데이터를 그만큼 다양한 저작권자가 보유하고 있을 경우 일일이 협의하며 학습해야 할 경우 AI 개발 기간이 그만큼 크게 늘어날 수 있다는 입장입니다. 또한 그렇게 함으로써 글로벌 AI 개발 경쟁에서도 뒤처질 수 있다는 주장이죠.

모든 콘텐츠는 엄연 ‘저작물’

저작권자들의 입장은 다릅니다. 사실 쉽게 볼 수 있는 기사 하나만 하더라도 모두 언론사가 비용을 들여 고용한 기자들이 쓴 저작물에 해당하는데요. 그 제작에 AI 기업들이 어떤 기여도 하지 않았음에도 허락 없이 무료로 쓰고 싶다고 주장하는 건 받아들이기 어려운 일이거든요. 설령 개인은 기사를 상대적으로 제약 없이 활용할 수 있도록 하더라도, 원래 기업이 상업용 이용자가 되었을 때는 합의된 사용료를 지불하는 것이 일반적입니다. 이는 우리가 널리 쓰는 무료 소프트웨어도 기업용은 무료로 쓸 수 없는 것과 같죠.

넷플릭스 망사용료 논쟁 데자뷔

AI 학습용 데이터의 사용 범위, 대가 산정을 둘러싼 문제는 향후 전세계적으로 확대될 전망입니다. 앞서 비슷한 이슈로는 ‘망 사용료 지급 논쟁’이 있었는데요. 인터넷 서비스 기업들은 인터넷 망을 구축한 기업들에게 망 사용료를 별도로 지급해야하는지를 둔 대립이었죠. 한국에선 넷플릭스와 SK브로드밴드의 첨예한 대립, 긴 소송전의 결과 SK브로드밴드가 승소한 바 있습니다.

AI 학습용 데이터 사용 이슈의 향방은 예측하기 어렵습니다. 아직 시장 초기 단계이며 참고할 판례도 충분하지 않기 때문입니다. 하지만 앞서 오픈AI가 이미 AP통신과 뉴스 이용 라이선스 계약을 정식으로 체결했고요. 최근 AI 개발에 힘을 싣고 있는 애플도 한화 650억원에 달하는 비용을 들여 주요 언론사 및 출판사들과 콘텐츠 사용 계약을 체결했습니다. 개발사들 입장에선 다소 부담스러운 비용일 수 있으나 좋은 서비스를 만드는 데 좋은 데이터가 필요하다는 사실은 변하지 않으며, 모든 자료에 걸린 크고작은 저작권을 무시할 만한 법적 근거 또한 없기 때문입니다.

다만 이런 변화는 AI 기술의 빈부격차를 만들 가능성 또한 높일 수 있습니다. 아무리 뛰어난 AI 알고리즘을 개발한 기업도 학습 데이터 비용을 충분히 확보하지 못한다면 실제로 빛을 보긴 어려워질 테니까요. 미래 AI 산업이 대기업 위주의 편향적인 형태로 발전될 가능성도 있다는 겁니다. 실제로 이런 부작용을 최소화하려면 정부 차원에서 AI 학습용 공공 데이터 확충에 보다 박차를 가하는 한편, 스타트업과 강소기업들을 대상으로 학습 데이터 구입비 바우처 정책 등을 보다 적극적으로 지원할 필요가 있겠습니다.