Нові оновлення OpenAI покращують голосові та зорові можливості ШІ

Автор CryptoHamster На читання 2 хв Переглядів 7 Опубліковано 02.10.2024 Оновлено 02.10.2024

Розробник штучного інтелекту OpenAI увійшов у жовтень з декількома оновленнями своїх моделей, що допомогло його моделям ШІ брати участь у кращих розмовах і покращити розпізнавання зображень.

1 жовтня OpenAI оприлюднив чотири оновлення, які представляють нові інструменти, призначені для того, щоб розробникам було легше створювати моделі штучного інтелекту.

Воно говорить!

Одним із основних оновлень є Realtime API, який дозволяє розробникам створювати голосові програми, згенеровані штучним інтелектом, за допомогою єдиного запиту.

Інструмент, доступний для тестування, підтримує мультимодальний досвід із низькою затримкою, передаючи потокове аудіо введення та виведення, уможливлюючи природні розмови, подібні до розширеного голосового режиму ChatGPT.

Раніше розробникам доводилося «зшивати» кілька моделей, щоб створити такий досвід. Аудіовхід зазвичай потрібно було повністю завантажити й обробити, перш ніж отримати відповідь, що означало вищу затримку для додатків у реальному часі, таких як голосові розмови.

За темою: Apple, Google використовуватимуть штучний інтелект для збереження домінування — ARK Invest Кеті Вуд

Завдяки можливості потокового передавання Realtime API розробники тепер можуть увімкнути негайну природну взаємодію, подібно до голосових помічників. API працює на GPT-4, випущеному в травні 2024 року, який може обробляти аудіо, зображення та текст у режимі реального часу.

ШІ тепер чітко бачить

Інше оновлення включає інструмент тонкого налаштування для розробників, що дозволяє їм покращувати відповіді штучного інтелекту, створені на основі введених зображень і тексту.

За словами розробника, точні налаштування на основі зображень дозволяють штучному інтелекту краще розуміти зображення, у свою чергу покращуючи можливості візуального пошуку та виявлення об’єктів. Процес включає відгуки людей, які надають приклади хороших і поганих відповідей.

На додаток до оновлень голосу та зору, OpenAI також запровадив «дистиляцію моделі» та «швидке кешування», які дозволяють меншим моделям навчатися у більших і зменшують витрати та час на розробку шляхом повторного використання вже обробленого тексту.

Розширені можливості його моделей є ключовою перевагою продажу, оскільки основну частину прибутку OpenAI отримує від компаній, які створюють власні програми на основі технології OpenAI.

Згідно з даними Reuters, наступного року дохід OpenAI зросте до 11,6 мільярда доларів проти 3,7 мільярда доларів у 2024 році.