Источник данных для будущей модели искусственного интеллекта OpenAI Sora, генерирующей видео, неясен главному технологу компании Мире Мурати.
Во время интервью The Wall Street Journal, опубликованного 13 марта, Мурати дал расплывчатые ответы на вопрос об источнике данных для модели Sora компании, которая способна генерировать видео из текстовых инструкций.
«Мы использовали общедоступные данные и лицензионные данные», — ответил Мурати о том, как компания стоимостью 80 миллиардов долларов обучала свою будущую модель.
Джоанна Стерн из журнала затем спросила, обучался ли Сора данным из социальных сетей, таких как YouTube, Instagram или Facebook. «На самом деле я не уверен в этом», — ответил Мурати, добавив:
«Знаете, если бы они были общедоступны — общедоступны для использования. Но я не уверен. Я не уверен в этом».
Прежде чем перейти к другой теме, Стерн упомянул партнерство OpenAI с компанией по производству изображений Shutterstock, спросив, можно ли использовать ее данные для обучения Соры. «Я просто не буду вдаваться в подробности о данных, которые были использованы. Но это были общедоступные или лицензированные данные», — добавил Мурати. Позже она подтвердила журналу, что для Соры использовались данные Shutterstock.
Модели ИИ обучаются с использованием больших наборов данных, известных как наборы обучающих данных, которые помогают модели научиться распознавать закономерности, делать прогнозы или понимать язык.
Мурати работает в OpenAI с 2018 года, возглавляя некоторые из самых популярных проектов компании, включая модель генератора изображений DALL-E 3, инструмент распознавания речи Whisper и последнюю версию чат-бота компании GPT-4. В ноябре 2023 года она ненадолго заняла пост временного генерального директора после того, как правление OpenAI отстранило от должности Сэма Альтмана.
OpenAI стала объектом нескольких судебных исков, связанных с данными обучения ее моделей ИИ. В июле 2023 года авторы Сара Сильверман, Ричард Кадри и Кристофер Голден подали иск против компании, утверждая, что ChatGPT генерирует резюме работ авторов на основе контента, защищенного авторским правом.
В декабре The New York Times подала в суд на Microsoft и OpenAI по аналогичной жалобе о нарушении авторских прав, в которой утверждается, что компании использовали контент газеты для обучения чат-ботов с искусственным интеллектом. Другой коллективный иск был подан в Калифорнии, в котором утверждалось, что OpenAI извлекла из Интернета личную информацию пользователей для обучения ChatGPT без согласия пользователя.