Создатель ChatGPT компания OpenAI анонсировала свою последнюю модель искусственного интеллекта, GPT-4o, более болтливого и более человечного чат-бота с искусственным интеллектом, который может интерпретировать аудио и видео пользователя и отвечать в режиме реального времени.
Серия демонстраций, выпущенных фирмой, показывает, что GPT-4 Omni помогает потенциальным пользователям в таких вопросах, как подготовка к собеседованию (обеспечивая их презентабельный вид на собеседовании), а также звонит агенту службы поддержки клиентов, чтобы получить замену iPhone.
Другие демоверсии показывают, что он может делиться отцовскими шутками, переводить двуязычный разговор в реальном времени, быть судьей в матче «камень-ножницы-бумага» между двумя пользователями и отвечать сарказмом, когда его об этом спрашивают. В одной из демонстраций даже показано, как ChatGPT реагирует на первое знакомство со щенком пользователя.
«Ну, здравствуй, Баузер! Разве ты не прелестнейшее создание?»- воскликнул чат-бот.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
«Это похоже на ИИ из фильмов;и меня до сих пор немного удивляет, что это реально», — заявил генеральный директор фирмы Сэм Альтман в своем блоге от 13 мая.
«Достижение времени отклика и выразительности на человеческом уровне оказывается большим изменением».
Версия для ввода только текста и изображений была запущена 13 мая, а полная версия будет выпущена в ближайшие недели, сообщил OpenAI в недавнем сообщении X.
GPT-4o будет доступен как платным, так и бесплатным пользователям ChatGPT, а также будет доступен через API ChatGPT.
В OpenAI заявили, что буква «o» в GPT-4o означает «omni», что означает шаг к более естественному взаимодействию человека с компьютером.
Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.
It’s extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) May 13, 2024
Способность GPT-4o обрабатывать любой ввод текста, звука и изображения одновременно является значительным достижением по сравнению с более ранними инструментами искусственного интеллекта OpenAI, такими как ChatGPT-4, который часто «теряет много информации», когда вынужден выполнять несколько задач одновременно..
Связанный: Apple завершает сделку с OpenAI для интеграции ChatGPT с iPhone: отчет
OpenAI заявила, что «GPT-4o особенно лучше распознает зрение и звук по сравнению с существующими моделями», что включает в себя даже распознавание эмоций пользователя и характера дыхания.
Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.
Новый инструмент искусственного интеллекта может реагировать на аудиовход всего за 2,3 секунды, при этом среднее время составляет 3,2 секунды, утверждает OpenAI, что, по ее словам, аналогично времени реакции человека в обычном разговоре.