NYT v. OpenAI: 데이터 저작권 침해 소송 정리

AI 학습에 사용되는 데이터 저작권은 어떻게 해석될까? 크리에이터와 AI 회사의 소송전

Jan 01, 2024

Contents

Introduction 주요 소송 내용 NYT가 빡친 이유 NYT 데이터의 중요성 법적 논리 What is Fair Use?OpenAI의 Fair Use 주장?유사 재판: Author’s Guild v. Google Looking Forward…

Introduction

2023년 12월 27일 New York Times Company (NYSE: NYT)가 OpenAI와 Microsoft를 상대로 저작권 침해 소송을 제기한 바 있습니다.

거대언어모델 학습을 위한 트레이닝 데이터를 위해 OpenAI와 같은 LLM 개발사는 인터넷을 크롤링하여 높은 퀄리티의 텍스트 데이터를 가져옵니다. 그 중 Wikipedia와 같이 사용이 자유로운 텍스트 데이터가 있는 반면, New York Times와 같이 돈을 내고 구독해야 접근권한이 생기는 데이터가 있죠.

최근 The Information 기사에 따르면 OpenAI의 ARR이 $1.6 Billion, Midjourney는 올해 매출이 $200 Million이라고 얘기 되고 있습니다. AI가 미래 산업이라면 데이터는 석유로 비유됩니다.

AI 골드러시가 진행되는 가운데 장기간 동안 높은 퀄리티의 데이터를 찍어내고 보유한 회사들이 이 게임에 참여할 방법을 찾고 있었고 칼을 빼들고 있습니다 (예. Reddit, Twitter 등)

이 소송에 대해 처음 접했을 때 “올 것이 왔구나” 반응이었습니다. 다만, 향후 AI와 저작권법에 매우 중요한 Implication이 있다고 생각합니다.

기존 미디어 채널의 BM이 B2C 구독서비스에서 B2B 라이센싱/로열티 모델로 바뀔 것인가?

전 CNN 대표이자 Elon Musk, Steve Jobs, Kissinger, Leonardo da Vinci 등의 전기를 쓴 Walter Isaacson의 트위트입니다:

높은 퀄리티의 데이터를 사용하기 위해 큰 돈을 지불해야 하면 작은 LLM 회사들은 끝난 것인가?

위와 덧붙여, Spotify가 일일이 노래 사용권을 위해 각 회사들마다 협상한 것처럼 LLM 회사들은 일일이 데이터 보유자(예. CNN, Fox, NYT, Washington Post 등)과 협상을 통해 데이터를 받아와야 하는가?

오픈소스 모델들은 지금까지 해왔던 것처럼 계속 “Fair Use Doctrine”으로 충분히 보호 받을 수 있는가?

OpenAI, Anthropic 등 대형사들이 사용자들을 위해 저작권 관련 “indemnity” 우산을 제공하기 시작. 저작권 이슈가 점점 중요해지면서 결국 LLM 사용자들은 자신을 보호해줄 수 있고 저작권 소송을 견뎌 낼만한 자본력을 가진 대기업으로 몰리지 않을까?

NYT 뿐만 아니라 소형/개인 크리에이터들도 본인들의 창작물에 대해 monetize할 수 있는 기회가 열릴까?

이러한 제재들이 자본력이 풍부한 late-starters (Amazon, Apple 등)들에겐 이득이 될 수 있지 않을까?

주요 소송 내용

NYT가 빡친 이유

NYT는 아래와 같이 OpenAI와 Microsoft가 자기 컨텐츠를 AI 모델 학습을 위해 무단으로 사용하여 “경쟁상품”을 만들고 NYT의 비즈니스모델을 “조 단위”로 훼손한다고 주장합니다. 소송장 첫 2문단에 잘 정리되어 있습니다:

1. …For more than 170 years, The Times has given the world deeply reported, expert, independent journalism… Their essential work is made possible through the efforts of a large and expensive organization that provides legal, security, and operational support, as well as editors who ensure their journalism meets the highest standards of accuracy and fairness…

NYT는 170년 동안 정확하고 신속한 뉴스를 배포하면서 민주주의에 중요한 역할을 해왔다고 주장합니다.

2. Defendants’ unlawful use of The Times’s work to create artificial intelligence products that compete with it threatens The Times’s ability to provide that service. Defendants’ generative artificial intelligence (“GenAI”) tools rely on large-language models (“LLMs”) that were built by copying and using millions of The Times’s copyrighted news articles, in-depth investigations, opinion pieces, reviews, how-to guides, and more. While Defendants engaged in widescale copying from many sources, they gave Times content particular emphasis when building their LLMs—revealing a preference that recognizes the value of those works. Through Microsoft’s Bing Chat (recently rebranded as “Copilot”) and OpenAI’s ChatGPT, Defendants seek to free-ride on The Times’s massive investment in its journalism by using it to build substitutive products without permission or payment.

하지만 OpenAI는 아무런 허가나 비용지불 없이 무단으로 NYT 자산을 사용하여 AI 모델이란 “경쟁상품”을 만들었으며, 민주주의를 위해 중요한 역할을 하고 있는 NYT의 지속가능성을 폄훼하고 있다고 주장합니다.

NYT 데이터의 중요성

OpenAI의 GPT-3 트레이닝 데이터는 아래와 같이 구성되어 있습니다.

가장 큰 구성을 차지하는 Common Crawl은 501(c)(3) non-profit 기구로써 무료로 모두에게 “copy of the internet”을 제공합니다. Common Crawl은 모든 회사와 연구기관이 사용할 수 있으니 AI모델 개발자 입장에서 중요한 differentiating factor가 아닙니다.

WebText2는 Common Crawl과 별도로 높은 퀄리티의 인터넷 데이터입니다. 전체 토큰 수의 4% 밖에 차지하지 않는 반면 실제 트레이닝 믹스에선 22%나 사용됩니다. 그만큼 높은 퀄리티의 텍스트 데이터가 중요하다는 것을 반증합니다.

WebText2 내 NYT 컨텐츠 209,707 링크가 사용되었고 WebText2 링크 중 1.23%를 차지합니다.

뿐만 아니라 Common Crawl 내에서도 NYT는 proprietary source 중 가장 많이 인용된 사이트라고 합니다. NYT의 proprietary 데이터셋이 AI 개발에 중대한 역할을 한 것을 주장합니다.

트레이닝으로만 사용되는 것에 그치지 않고 LLM이 NYT 컨텐츠를 외우고 그대로 배껴쓴다고 주장합니다.

As further evidence of being trained using unauthorized copies of Times Works, the GPT LLMs themselves have “memorized” copies of many of those same works encoded into their parameters. As shown below, the current GPT-4 LLM will output near-verbatim copies of significant portions of Times Works when prompted to do so.

아래는 2019년 NYT가 18개월 동안 취재하여 Pulitzer까지 수상 받은 아티클 발췌와 OpenAI 아웃풋 비교입니다.

OpenAI had no role in the creation of this content, yet with minimal prompting, will recite large portions of it verbatim.

법적 논리

What is Fair Use?

지금까지 OpenAI를 비롯한 LLM 회사들은 Fair Use Doctrine에 의거하여 웹 크롤링 행태와 데이터 사용을 방어해왔습니다.

미국 저작권법 Section 107 내 Doctrine of Fair Use에선 다른 사람의 창작물에 대한 “공정”한 사용을 보호하고 있습니다. Fairness의 기준은 아래 4가지로 정리되어 있습니다:

1) Purpose and Character of the Use

Transformation: 창작물을 변형 시켜 사용하였는가?

Commercial vs. Non-commercial: 교육용이나 비상업적 목적으로 사용된다면 “fair use”로 해석되기 유리합니다.

2) Nature of Copyrighted Work

Factual vs. Creative: 창작물이 팩트를 전달하는지, 창의적인 요소가 있는지 여부를 확인합니다.

3) Amount and Sustainability of the Portion Used

Quantity: 얼마나 많은 부분을 인용/사용했는지?

Quality: 하지만 아무리 작은 부분을 인용하더라도 창작물의 “heart”가 되는 매우 주요 부분을 사용했다면 “fair use”를 벗어날 수 있습니다.

4) Effect on Market Value of the Original

Market Harm: 본 사용이 기존 창작물의 시장가치를 훼손할 가능성이 있는지?

OpenAI의 Fair Use 주장?

OpenAI가 proprietary 데이터를 사용하여 AI를 트레이닝하고 본 모델을 상업적으로 금전적 이득을 취하는 것에 대해 “fair use”로 볼 수 있는지가 본 소송의 관건입니다.

제가 변호사가 아닌지라 AI/데이터 전문 변호사인 Aleksandr Tiulkanov의 글을 인용하고 제 생각을 덧붙여 정리해봤습니다:

1) Purpose and Character of the Use

Transformation: LLM은 본질적으로 “블랙박스”입니다. 어떻게 해당 아웃풋이 나왔는지 “explainability”가 없죠. 소송문 안엔 NYT 기사가 word for word 아웃풋으로 나온 사례를 제시하지만 매번 그럴 것이란 보장도 없고, OpenAI가 충분한 counter measure를 업데이트할 수 있다고 생각됩니다.

뿐만 아니라 NYT의 창작물을 LLM이란 도구로 변형하여 사용하는 것에 대해선 충분히 “transformation” 노력을 했다고 볼 수 있을 것 같습니다.

Commercial vs. Non-commercial: Mistral이나 다른 오픈소스 모델과 달리 상업적 목적으로 사용하고 있기 때문에 OpenAI/Microsoft가 불리합니다.

2) Nature of Copyrighted Work

Factual vs. Creative: 이 항목에선 OpenAI가 유리하다고 생각됩니다. NYT 자료 대부분은 “팩트”를 전달하기 때문에 창의적인 창작물이라고 보기 어려울 것 같습니다.

3) Amount and Sustainability of the Portion Used

Quantity/Quality: NYT는 ChatGPT가 자기 창작물을 word-for-word 배껴쓴 사례를 제시하였지만 많은 사람들은 NYT의 Prompting에 대해 의문을 갖고 있습니다. 추가적인 독립적 분석이 필요한 사안이라고 합니다.

4) Effect on Market Value of the Original

Market Harm: 이 사항 또한 아직 TBD입니다. 물론 NYT는 자기 BM의 심각한 위협이라고 주장하지만 아직 백업할 수 있는 데이터가 없습니다.

유사 재판: Author’s Guild v. Google

2005년에 “Fair Use”와 관련하여 Author’s Guild는 Google에 소송을 제기한 바 있습니다. Google Books는 2003년부터 “printed copyrighted books”를 스캔하고 검색 가능한 온라인 데이터베이스로 정리해 놓은 바 있습니다.

그 당시 법원은 Google Books의 행동이 “fair use”라고 판결합니다.

Google’s unauthorized digitizing of copyright-protected works, creation of a search functionality, and display of snippets from those works are non-infringing fair uses. The purposes of the copying is highly transformative, the public display of text is limited, and the revelations do not provide a significant market substitue for the protected aspects of the originals.

구글은 실물 책들을 온라인 데이터베이스로 옮기고 검색기능을 추가함으로써 충분히 “transformative”하고,

책의 매우 일부분을 공개함으로써 Google Books가 기존 창작물의 “대체제”로 보기 어렵다고 판결한 바 있습니다.

OpenAI 챗봇의 아웃풋은 NYT 컨텐츠를 인용하지만 크레딧을 주지 않고 (e.g. According to the New York Times…), 어떤 경우 word-for-word 배껴 쓰면서 진짜 기사에 링크도 안 걸어주고 있습니다. 이로 인해 OpenAI가 NYT의 매출기회를 감소 시킨다고 볼 수도 있겠습니다.

Looking Forward…

전문가들은 장기 소송전보다 Settlement로 NYT가 OpenAI (및 향후 기타 LLM 회사들)로부터 돈을 유의미하게 뜯어낼 수 있다고 보고 있습니다.

실제로 NYT와 OpenAI는 라이센싱 관련하여 여러 차례 협상을 진행했지만 결렬 되었습니다. 애초부터 본 소송은 NYT가 협상카드를 가져가기 위한 전략으로 보여집니다.

For months, The Times has attempted to reach a negotiated agreement with Defendants, in accordance with its history of working productively with large technology platforms to permit the use of its content in new digital products (including the news products developed by Google, Meta, and Apple). The Times’s goal during these negotiations was to ensure it received fair value for the use of its content, facilitate the continuation of a healthy news ecosystem, and help develop GenAI technology in a responsible way that benefits society and supports a well-informed public.

OpenAI는 이미 The Associated Press, Axel Springer 등과 같은 미디어 채널과 파트너 프로그램을 11월에 공개한 바 있습니다. NYT는 OpenAI가 받아들이기 어려운 더 높은 금액, 또는 유리한 계약조건(로열티 등)을 부르지 않았을까 싶습니다.

NYT 입장에선 찐 소송을 가기에 인센티브가 적다고 판단되고 있습니다. Author’s Guild v. Google과 같은 전례도 있을 뿐더러 소송이 몇 년간 걸릴 것이 예상되며 Microsoft + OpenAI의 법무팀을 상대할 비용도 버겁습니다.

또한, NYT의 컨텐츠가 다른 뉴스 아울렛과 유사한 컨텐츠 성격을 가진 점을 비추어 봤을 때(팩트 기반 창작물 vs. creative 창작물), NYT의 컨텐츠 필요성/중요성이 떨어질 수도 있습니다. “There may be a difference in quality, but not a gap in availability.” 이 성격이 Spotify와 Taylor Swift의 음원 협상과 OpenAI와 NYT 사이 협상의 본질적 차이입니다.

재밌는 것은 NYT가 OpenAI에게 소송을 제기한 후 주식이 크게 뛰었습니다. 본 그래프는 Closed 주가 기준인 것을 감안하여 26일 주가를 기준점으로 본다면 5일 만에 시가총액이 $627 Million (약 8,000억원) 올라 현재 $8 Billion 시가총액입니다.

적어도 시장은 NYT가 유의미한 돈을 뜯어낼 수 있을 것이라고 예상하는 것 같습니다.

본 소송이 실제 판결까지 가지 않아 AI 산업 내 데이터 저작권 관련 법적 해석이 정의되지 않는다 하더라도 NYT의 협상 결과물에 따라 향후 AI와 저작권법에 매우 중요한 Implication이 있다고 생각합니다.

Contents

Introduction 주요 소송 내용 NYT가 빡친 이유 NYT 데이터의 중요성 법적 논리 What is Fair Use?OpenAI의 Fair Use 주장?유사 재판: Author’s Guild v. Google Looking Forward…

AI/SaaS Reader's Favorites

NYT v. OpenAI: 데이터 저작권 침해 소송 정리

AI 학습에 사용되는 데이터 저작권은 어떻게 해석될까? 크리에이터와 AI 회사의 소송전

Jan 01, 2024

Contents

Introduction 주요 소송 내용 NYT가 빡친 이유 NYT 데이터의 중요성 법적 논리 What is Fair Use?OpenAI의 Fair Use 주장?유사 재판: Author’s Guild v. Google Looking Forward…

Introduction

2023년 12월 27일 New York Times Company (NYSE: NYT)가 OpenAI와 Microsoft를 상대로 저작권 침해 소송을 제기한 바 있습니다.

이 소송에 대해 처음 접했을 때 “올 것이 왔구나” 반응이었습니다. 다만, 향후 AI와 저작권법에 매우 중요한 Implication이 있다고 생각합니다.

기존 미디어 채널의 BM이 B2C 구독서비스에서 B2B 라이센싱/로열티 모델로 바뀔 것인가?

전 CNN 대표이자 Elon Musk, Steve Jobs, Kissinger, Leonardo da Vinci 등의 전기를 쓴 Walter Isaacson의 트위트입니다:

높은 퀄리티의 데이터를 사용하기 위해 큰 돈을 지불해야 하면 작은 LLM 회사들은 끝난 것인가?

위와 덧붙여, Spotify가 일일이 노래 사용권을 위해 각 회사들마다 협상한 것처럼 LLM 회사들은 일일이 데이터 보유자(예. CNN, Fox, NYT, Washington Post 등)과 협상을 통해 데이터를 받아와야 하는가?

오픈소스 모델들은 지금까지 해왔던 것처럼 계속 “Fair Use Doctrine”으로 충분히 보호 받을 수 있는가?

OpenAI, Anthropic 등 대형사들이 사용자들을 위해 저작권 관련 “indemnity” 우산을 제공하기 시작. 저작권 이슈가 점점 중요해지면서 결국 LLM 사용자들은 자신을 보호해줄 수 있고 저작권 소송을 견뎌 낼만한 자본력을 가진 대기업으로 몰리지 않을까?

NYT 뿐만 아니라 소형/개인 크리에이터들도 본인들의 창작물에 대해 monetize할 수 있는 기회가 열릴까?

이러한 제재들이 자본력이 풍부한 late-starters (Amazon, Apple 등)들에겐 이득이 될 수 있지 않을까?

주요 소송 내용

NYT가 빡친 이유

1. …For more than 170 years, The Times has given the world deeply reported, expert, independent journalism… Their essential work is made possible through the efforts of a large and expensive organization that provides legal, security, and operational support, as well as editors who ensure their journalism meets the highest standards of accuracy and fairness…

NYT는 170년 동안 정확하고 신속한 뉴스를 배포하면서 민주주의에 중요한 역할을 해왔다고 주장합니다.

2. Defendants’ unlawful use of The Times’s work to create artificial intelligence products that compete with it threatens The Times’s ability to provide that service. Defendants’ generative artificial intelligence (“GenAI”) tools rely on large-language models (“LLMs”) that were built by copying and using millions of The Times’s copyrighted news articles, in-depth investigations, opinion pieces, reviews, how-to guides, and more. While Defendants engaged in widescale copying from many sources, they gave Times content particular emphasis when building their LLMs—revealing a preference that recognizes the value of those works. Through Microsoft’s Bing Chat (recently rebranded as “Copilot”) and OpenAI’s ChatGPT, Defendants seek to free-ride on The Times’s massive investment in its journalism by using it to build substitutive products without permission or payment.

NYT 데이터의 중요성

OpenAI의 GPT-3 트레이닝 데이터는 아래와 같이 구성되어 있습니다.

가장 큰 구성을 차지하는 Common Crawl은 501(c)(3) non-profit 기구로써 무료로 모두에게 “copy of the internet”을 제공합니다. Common Crawl은 모든 회사와 연구기관이 사용할 수 있으니 AI모델 개발자 입장에서 중요한 differentiating factor가 아닙니다.

WebText2는 Common Crawl과 별도로 높은 퀄리티의 인터넷 데이터입니다. 전체 토큰 수의 4% 밖에 차지하지 않는 반면 실제 트레이닝 믹스에선 22%나 사용됩니다. 그만큼 높은 퀄리티의 텍스트 데이터가 중요하다는 것을 반증합니다.

WebText2 내 NYT 컨텐츠 209,707 링크가 사용되었고 WebText2 링크 중 1.23%를 차지합니다.

뿐만 아니라 Common Crawl 내에서도 NYT는 proprietary source 중 가장 많이 인용된 사이트라고 합니다. NYT의 proprietary 데이터셋이 AI 개발에 중대한 역할을 한 것을 주장합니다.

트레이닝으로만 사용되는 것에 그치지 않고 LLM이 NYT 컨텐츠를 외우고 그대로 배껴쓴다고 주장합니다.

As further evidence of being trained using unauthorized copies of Times Works, the GPT LLMs themselves have “memorized” copies of many of those same works encoded into their parameters. As shown below, the current GPT-4 LLM will output near-verbatim copies of significant portions of Times Works when prompted to do so.

아래는 2019년 NYT가 18개월 동안 취재하여 Pulitzer까지 수상 받은 아티클 발췌와 OpenAI 아웃풋 비교입니다.

OpenAI had no role in the creation of this content, yet with minimal prompting, will recite large portions of it verbatim.

법적 논리

What is Fair Use?

지금까지 OpenAI를 비롯한 LLM 회사들은 Fair Use Doctrine에 의거하여 웹 크롤링 행태와 데이터 사용을 방어해왔습니다.

1) Purpose and Character of the Use

Transformation: 창작물을 변형 시켜 사용하였는가?

Commercial vs. Non-commercial: 교육용이나 비상업적 목적으로 사용된다면 “fair use”로 해석되기 유리합니다.

2) Nature of Copyrighted Work

Factual vs. Creative: 창작물이 팩트를 전달하는지, 창의적인 요소가 있는지 여부를 확인합니다.

3) Amount and Sustainability of the Portion Used

Quantity: 얼마나 많은 부분을 인용/사용했는지?

Quality: 하지만 아무리 작은 부분을 인용하더라도 창작물의 “heart”가 되는 매우 주요 부분을 사용했다면 “fair use”를 벗어날 수 있습니다.

4) Effect on Market Value of the Original

Market Harm: 본 사용이 기존 창작물의 시장가치를 훼손할 가능성이 있는지?

OpenAI의 Fair Use 주장?

제가 변호사가 아닌지라 AI/데이터 전문 변호사인 Aleksandr Tiulkanov의 글을 인용하고 제 생각을 덧붙여 정리해봤습니다:

1) Purpose and Character of the Use

Transformation: LLM은 본질적으로 “블랙박스”입니다. 어떻게 해당 아웃풋이 나왔는지 “explainability”가 없죠. 소송문 안엔 NYT 기사가 word for word 아웃풋으로 나온 사례를 제시하지만 매번 그럴 것이란 보장도 없고, OpenAI가 충분한 counter measure를 업데이트할 수 있다고 생각됩니다.

뿐만 아니라 NYT의 창작물을 LLM이란 도구로 변형하여 사용하는 것에 대해선 충분히 “transformation” 노력을 했다고 볼 수 있을 것 같습니다.

Commercial vs. Non-commercial: Mistral이나 다른 오픈소스 모델과 달리 상업적 목적으로 사용하고 있기 때문에 OpenAI/Microsoft가 불리합니다.

2) Nature of Copyrighted Work

Factual vs. Creative: 이 항목에선 OpenAI가 유리하다고 생각됩니다. NYT 자료 대부분은 “팩트”를 전달하기 때문에 창의적인 창작물이라고 보기 어려울 것 같습니다.

3) Amount and Sustainability of the Portion Used

Quantity/Quality: NYT는 ChatGPT가 자기 창작물을 word-for-word 배껴쓴 사례를 제시하였지만 많은 사람들은 NYT의 Prompting에 대해 의문을 갖고 있습니다. 추가적인 독립적 분석이 필요한 사안이라고 합니다.

4) Effect on Market Value of the Original

Market Harm: 이 사항 또한 아직 TBD입니다. 물론 NYT는 자기 BM의 심각한 위협이라고 주장하지만 아직 백업할 수 있는 데이터가 없습니다.

유사 재판: Author’s Guild v. Google

그 당시 법원은 Google Books의 행동이 “fair use”라고 판결합니다.

Google’s unauthorized digitizing of copyright-protected works, creation of a search functionality, and display of snippets from those works are non-infringing fair uses. The purposes of the copying is highly transformative, the public display of text is limited, and the revelations do not provide a significant market substitue for the protected aspects of the originals.

구글은 실물 책들을 온라인 데이터베이스로 옮기고 검색기능을 추가함으로써 충분히 “transformative”하고,

책의 매우 일부분을 공개함으로써 Google Books가 기존 창작물의 “대체제”로 보기 어렵다고 판결한 바 있습니다.

Looking Forward…

전문가들은 장기 소송전보다 Settlement로 NYT가 OpenAI (및 향후 기타 LLM 회사들)로부터 돈을 유의미하게 뜯어낼 수 있다고 보고 있습니다.

For months, The Times has attempted to reach a negotiated agreement with Defendants, in accordance with its history of working productively with large technology platforms to permit the use of its content in new digital products (including the news products developed by Google, Meta, and Apple). The Times’s goal during these negotiations was to ensure it received fair value for the use of its content, facilitate the continuation of a healthy news ecosystem, and help develop GenAI technology in a responsible way that benefits society and supports a well-informed public.

적어도 시장은 NYT가 유의미한 돈을 뜯어낼 수 있을 것이라고 예상하는 것 같습니다.

Contents

Introduction 주요 소송 내용 NYT가 빡친 이유 NYT 데이터의 중요성 법적 논리 What is Fair Use?OpenAI의 Fair Use 주장?유사 재판: Author’s Guild v. Google Looking Forward…