Источник данных для будущей модели искусственного интеллекта OpenAI Sora, генерирующей видео, неясен главному технологу компании Мире Мурати.
Во время интервью The Wall Street Journal, опубликованного 13 марта, Мурати дал расплывчатые ответы на вопрос об источнике данных для модели Sora компании, которая способна генерировать видео из текстовых инструкций.
«Мы использовали общедоступные данные и лицензионные данные», — ответил Мурати о том, как компания стоимостью 80 миллиардов долларов обучала свою будущую модель.
Джоанна Стерн из журнала затем спросила, обучался ли Сора данным из социальных сетей, таких как YouTube, Instagram или Facebook. «На самом деле я не уверен в этом», — ответил Мурати, добавив:
«Знаете, если бы они были общедоступны — общедоступны для использования. Но я не уверен. Я не уверен в этом».
Прежде чем перейти к другой теме, Стерн упомянул партнерство OpenAI с компанией по производству изображений Shutterstock, спросив, можно ли использовать ее данные для обучения Соры. «Я просто не буду вдаваться в подробности о данных, которые были использованы. Но это были общедоступные или лицензированные данные», — добавил Мурати. Позже она подтвердила журналу, что для Соры использовались данные Shutterstock.
Модели ИИ обучаются с использованием больших наборов данных, известных как наборы обучающих данных, которые помогают модели научиться распознавать закономерности, делать прогнозы или понимать язык.
Мурати работает в OpenAI с 2018 года, возглавляя некоторые из самых популярных проектов компании, включая модель генератора изображений DALL-E 3, инструмент распознавания речи Whisper и последнюю версию чат-бота компании GPT-4. В ноябре 2023 года она ненадолго заняла пост временного генерального директора после того, как правление OpenAI отстранило от должности Сэма Альтмана.
OpenAI стала объектом нескольких судебных исков, связанных с данными обучения ее моделей ИИ. В июле 2023 года авторы Сара Сильверман, Ричард Кадри и Кристофер Голден подали иск против компании, утверждая, что ChatGPT генерирует резюме работ авторов на основе контента, защищенного авторским правом.
В декабре The New York Times подала в суд на Microsoft и OpenAI по аналогичной жалобе о нарушении авторских прав, в которой утверждается, что компании использовали контент газеты для обучения чат-ботов с искусственным интеллектом. Другой коллективный иск был подан в Калифорнии, в котором утверждалось, что OpenAI извлекла из Интернета личную информацию пользователей для обучения ChatGPT без согласия пользователя.
Разработчики приложений Cryptocurrence теперь могут свободно направлять пользователей на платежи за пределами экосистемы Apple без…
Соучредитель Bitmex Артур Хейс говорит, что Соединенные Штаты вряд ли добавят больше Биткоин в свои…
Цена Биткоин только что напечатала основной бычий сигнал, официально подтверждая сильное локальное дно и вызвано…
Ethereum удерживает стабильно выше уровня 1800 долларов, несмотря на многочисленные неудачные попытки сломаться выше. Текущее…
Ценовое действие Биткоина сократилось свыше 96 000 долларов за последние 24 часа, что укрепило дело…
Сенатор Синтия Ламмис и, по крайней мере, еще один республиканец в Конгрессе, как сообщается, критикуют…