The New York Times ПРОТИ OpenAI: що найгірше, що може статися?

Коли система генеративного штучного інтелекту (ШІ) виводить щось разюче схоже на дані, на яких вона навчалася, чи це порушення авторських прав чи помилка в системі?Це питання лежить в основі нещодавнього позову New York Times проти виробника ChatGPT OpenAI.

The Times стверджує, що OpenAI використовував більше вмісту з веб-сайту NYT для навчання своїх моделей штучного інтелекту, ніж майже з будь-якого іншого власного джерела — лише Вікіпедія та набори даних, що містять патентні документи США, переважають.

OpenAI каже, що навчання захищеним авторським правом даним є «добросовісним використанням», а позов New York Times — «безпідставним».

We build AI to empower people, including journalists.

Our position on the @nytimes lawsuit:
• Training is fair use, but we provide an opt-out
• "Regurgitation" is a rare bug we're driving to zero
• The New York Times is not telling the full storyhttps://t.co/S6fSaDsfKb

— OpenAI (@OpenAI) January 8, 2024

Зміст

Ставки
Чорний ящик
Найгірший сценарій

Ставки

Позов можна вирішити поза судом, він може закінчитися відшкодуванням збитків, звільненням або безліччю інших результатів. Але окрім фінансової допомоги чи судових заборон (які можуть вважатися тимчасовими, незавершеними апеляцією або спрацьовувати після неуспішної апеляції), наслідки можуть вплинути на американське суспільство в цілому з потенційним глобальним впливом за його межами.

По-перше, якби суди визнали на користь OpenAI, що навчання систем штучного інтелекту матеріалам, захищеним авторським правом, є добросовісним використанням, це могло б мати значний вплив на правову систему США.

Як нещодавно написав у The Conversation старший викладач Королівського коледжу Майк Кук:

«Якщо ви використовували штучний інтелект, щоб відповідати на електронні листи або підсумовувати свою роботу, ви можете бачити ChatGPT як мету, яка виправдовує засоби. Однак, мабуть, нас повинно хвилювати, якщо єдиним способом досягти цього є звільнення конкретних корпоративних організацій від законів, які застосовуються до всіх інших.

New York Times стверджує, що таке звільнення представлятиме явну загрозу її бізнес-моделі.

OpenAI визнав, що у ChatGPT є «помилка», через яку він час від часу виводить уривки тексту, які мають разючу схожість із існуючими роботами, захищеними авторським правом. За даними Times, це може служити для обходу системи оплати, позбавляє компанію доходів від реклами та вплине на її здатність виконувати свої основні функції.

Згідно з позовом, якби OpenAI дозволили продовжувати навчання на матеріалах, захищених авторським правом, без обмежень, довгострокові наслідки для New York Times та будь-яких інших журналістських видань, чию роботу можна було б використовувати для навчання систем ШІ, могли б бути катастрофічними.

Те саме можна сказати про інші сфери, де захищені авторським правом матеріали приносять прибуток, включаючи кіно, телебачення, музику, літературу та інші види друкованих ЗМІ.

З іншого боку, у документах, поданих Палаті лордів Великої Британії зі зв’язків і цифрового комітету, OpenAI зазначив, що «неможливо буде навчити сучасні провідні моделі ШІ без використання матеріалів, захищених авторським правом».

Фірма ШІ додала:

«Обмеження навчальних даних загальнодоступними книгами та малюнками, створеними більше століття тому, могло б дати цікавий експеримент, але не забезпечить системи штучного інтелекту, які відповідають потребам сучасних громадян».

Чорний ящик

Ситуацію ще більше ускладнює той факт, що компромісу важко досягти. OpenAI вжив заходів, щоб заборонити ChatGPT та іншим продуктам виводити матеріали, захищені авторським правом, але немає жодних технологічних гарантій, що це не буде й надалі.

Моделі AI, такі як ChatGPT, називають системами «чорних скриньок». Це тому, що розробники, які їх створюють, не можуть точно знати, чому система генерує свої результати.

Через цю чорну скриньку та метод навчання великих мовних моделей, таких як ChatGPT, неможливо виключити дані New York Times або будь-якого іншого власника авторських прав після навчання моделі.

За темою: OpenAI стикається з новим позовом щодо авторських прав через тиждень після позову NYT

Виходячи з поточних технологій і методів, існує значна ймовірність того, що OpenAI доведеться видалити ChatGPT і почати все з нуля, якби він повністю заборонив використання матеріалів, захищених авторським правом. Зрештою, це може виявитися надто дорогим і неефективним, щоб мати на це користь.

OpenAI сподівається впоратися з цією проблемою, запропонувавши новинним та медіа-організаціям партнерство, а також обіцянку продовжувати роботу над усуненням «помилки» регургітації.

Найгірший сценарій

Найгіршим сценарієм для галузі штучного інтелекту була б втрата можливості монетизувати моделі, навчені на матеріалах, захищених авторським правом. Хоча це не обов’язково вплине, наприклад, на зусилля, пов’язані з безпілотними автомобілями або системами штучного інтелекту, які використовуються для моделювання суперкомп’ютерів, це може зробити генеративні продукти, такі як ChatGPT, незаконними для виведення на ринок.

А коли справа доходить до власників авторських прав, найгіршим випадком було б рішення суду про те, що захищений авторським правом матеріал можна вільно використовувати для навчання систем ШІ.

Теоретично це може дати компаніям зі штучним інтелектом свободу розповсюджувати дещо модифіковані матеріали, захищені авторським правом, водночас покладаючи на кінцевих користувачів юридичну відповідальність за будь-які випадки, коли зміни не відповідають юридичним вимогам щодо уникнення порушення авторських прав.