Новые обновления OpenAI расширяют голосовые и зрительные возможности ИИ

Автор Victoria Lyapota На чтение 2 мин Просмотров 18 Опубликовано 02.10.2024 Обновлено 02.10.2024

Разработчик искусственного интеллекта OpenAI вступил в октябрь с несколькими обновлениями своих моделей, помогая своим моделям искусственного интеллекта лучше общаться и улучшать распознавание изображений.

1 октября OpenAI представила четыре обновления, в которых представлены новые инструменты, призванные облегчить разработчикам создание моделей искусственного интеллекта.

Оно говорит!

Одним из основных обновлений является API Realtime, который позволяет разработчикам создавать голосовые приложения, созданные искусственным интеллектом, с помощью одной подсказки.

Инструмент, доступный для тестирования, поддерживает мультимодальные возможности с малой задержкой путем потоковой передачи аудиовходов и выходов, обеспечивая естественные разговоры, аналогичные расширенному голосовому режиму ChatGPT.

Раньше разработчикам приходилось «сшивать» несколько моделей, чтобы создать такой опыт. Аудиовход обычно необходимо полностью загрузить и обработать перед получением ответа, что означает более высокую задержку для приложений реального времени, таких как голосовые разговоры.

По теме: Apple и Google будут использовать ИИ для сохранения доминирования — ARK Invest Кэти Вуд

Благодаря возможности потоковой передачи Realtime API разработчики теперь могут обеспечить мгновенное и естественное взаимодействие, во многом похожее на голосовых помощников. API работает на GPT-4, выпущенном в мае 2024 года, который может обрабатывать аудио, изображение и текст в режиме реального времени.

ИИ теперь ясно видит

Еще одно обновление включает в себя инструмент тонкой настройки для разработчиков, позволяющий им улучшить реакцию ИИ, генерируемую на основе изображений и текстового ввода.

По словам разработчика, точные настройки на основе изображений позволяют искусственному интеллекту лучше понимать изображения, что, в свою очередь, расширяет возможности визуального поиска и обнаружения объектов. Этот процесс включает в себя обратную связь от людей, которые приводят примеры хороших и плохих ответов.

В дополнение к обновлениям голоса и видения OpenAI также внедрила «дистилляцию модели» и «быстрое кэширование», которые позволяют меньшим моделям учиться на более крупных и сокращать затраты и время на разработку за счет повторного использования уже обработанного текста.

Расширенные возможности моделей являются ключевым преимуществом, поскольку основная часть доходов OpenAI поступает от предприятий, создающих свои собственные приложения на основе технологии OpenAI.

По данным Reuters, OpenAI прогнозирует, что в следующем году ее выручка вырастет до $11,6 млрд по сравнению с $3,7 млрд в 2024 году.