Міра Мураті з OpenAI «не впевнена», звідки беруться дані навчання Сори

Автор Victoria Lyapota На читання 2 хв Переглядів 18 Опубліковано 16.03.2024 Оновлено 16.03.2024

Джерело даних майбутньої моделі штучного інтелекту OpenAI для генерації відео, Sora, незрозуміло головному технічному директору компанії Мірі Мураті.

Під час інтерв’ю The Wall Street Journal, опублікованого 13 березня, Мураті дав розпливчасті відповіді на запитання про джерело даних для моделі компанії Sora, яка здатна генерувати відео з текстових інструкцій.

«Ми використовували загальнодоступні та ліцензовані дані», — відповів Мураті про те, як компанія, оцінена в 80 мільярдів доларів, тренувала свою майбутню модель.

Джоанна Стерн з журналу потім запитала, чи навчався Сора даними з платформ соціальних мереж, таких як YouTube, Instagram або Facebook. «Насправді я не впевнений у цьому», — відповів Мураті, додавши:

«Знаєте, якби вони були загальнодоступними — загальнодоступними для використання. Але я не впевнений. Я не впевнений у цьому».

Перш ніж перейти до іншої теми, Стерн згадав про партнерство OpenAI із компанією Shutterstock, запитуючи, чи можна використовувати її дані для навчання Sora. «Я просто не збираюся вдаватися в деталі даних, які були використані. Але це були загальнодоступні або ліцензовані дані», — додав Мураті. Пізніше вона підтвердила журналу, що дані Shutterstock були використані для Sora.

Моделі штучного інтелекту навчаються за допомогою великих наборів даних, відомих як навчальні набори даних, які допомагають моделі навчитися розпізнавати шаблони, робити прогнози або розуміти мову.

Технічний директор OpenAI Міра Мураті під час інтерв’ю The Wall Street Journal. Джерело: WSJ

Мураті працює в OpenAI з 2018 року, керуючи деякими з найпопулярніших проектів компанії, включаючи модель генератора зображень DALL-E 3, інструмент розпізнавання мови Whisper і останню версію чат-бота компанії GPT-4. У листопаді 2023 року вона ненадовго обійняла посаду тимчасового генерального директора після того, як рада директорів OpenAI усунула Сема Альтмана.

OpenAI був об’єктом кількох судових позовів, пов’язаних із навчальними даними моделей ШІ. У липні 2023 року автори Сара Сільверман, Річард Кадрі та Крістофер Голден подали позов проти компанії, стверджуючи, що ChatGPT створює резюме робіт авторів на основі захищеного авторським правом вмісту.

У грудні The New York Times подала до суду на Microsoft і OpenAI у аналогічній скарзі про порушення авторських прав, яка стверджувала, що компанії використовували вміст газети для навчання чат-ботів ШІ. Інший колективний позов був поданий у Каліфорнії, стверджуючи, що OpenAI збирав конфіденційну інформацію користувача з Інтернету для навчання ChatGPT без згоди користувача.