Останнє оновлення OpenAI фактично дозволяє користувачам проводити пряму трансляцію за допомогою ChatGPT

Автор Anna Kuznetsova На читання 3 хв Переглядів 16 Опубліковано 14.05.2024 Оновлено 14.05.2024

Творець ChatGPT OpenAI анонсував свою останню модель штучного інтелекту GPT-4o, більш балакучий, більш схожий на людину чат-бот ШІ, який може інтерпретувати аудіо та відео користувача та відповідати в реальному часі.

Серія демонстраційних роликів, опублікованих фірмою, показує, що GPT-4 Omni допомагає потенційним користувачам у підготовці до співбесіди — переконавшись, що вони виглядають презентабельно на співбесіді — а також зателефонувати агенту з обслуговування клієнтів, щоб отримати заміну iPhone.

Інші демонстрації показують, що він може ділитися жартами про батька, перекладати двомовну розмову в режимі реального часу, бути суддею в матчі «камінь-ножиці-папір» між двома користувачами та відповідати сарказмом на запитання. В одній демонстрації навіть показано, як ChatGPT реагує на перше знайомство з цуценям користувача.

«Ну, привіт, Боузер! Хіба ти не наймиліша маленька істота?»— вигукнув чат-бот.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

«Це відчуття, як ШІ з фільмів;і для мене все ще трохи дивно, що це реально», — сказав генеральний директор фірми Сем Альтман у дописі в блозі від 13 травня.

«Досягнення часу реакції на рівні людини та виразності виявляється великою зміною».

Версія лише для введення тексту та зображень була запущена 13 травня, а повна версія має бути розгорнута найближчими тижнями, повідомляє OpenAI в останньому дописі X.

GPT-4o буде доступний як для платних, так і для безкоштовних користувачів ChatGPT і буде доступний через API ChatGPT.

OpenAI сказав, що «o» в GPT-4o означає «omni», що означає крок до більш природної взаємодії людини з комп’ютером.

Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.

It’s extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) May 13, 2024

Здатність GPT-4o обробляти будь-який вхідний текст, аудіо та зображення одночасно є значним прогресом у порівнянні з попередніми інструментами штучного інтелекту OpenAI, такими як ChatGPT-4, який часто «втрачає багато інформації», коли змушений виконувати багато завдань..

За темою: Apple завершує угоду з OpenAI для інтеграції ChatGPT iPhone: звіт

OpenAI сказав, що «GPT-4o особливо кращий у сприйнятті зору та аудіо в порівнянні з існуючими моделями», що навіть включає в себе вловлювання емоцій і дихання користувача.

Він також «набагато швидший» і «на 50% дешевший», ніж GPT-4 Turbo в API OpenAI.

Новий інструмент штучного інтелекту може реагувати на аудіовхід всього за 2,3 секунди із середнім часом 3,2 секунди, стверджує OpenAI, що, за його словами, подібне до часу реакції людини під час звичайної розмови.