Чотири речі, які незабаром зможуть робити користувачі Google Gemini

Автор Anna Kuznetsova На читання 3 хв Переглядів 14 Опубліковано 15.05.2024 Оновлено 15.05.2024

Модель штучного інтелекту Gemini від Google вплітається в більшість технологій технічного гіганта, а ШІ незабаром з’явиться в Gmail, на YouTube і на смартфонах компанії.

У програмній промові на конференції розробників компанії I/O 2024 14 травня генеральний директор Сундар Пічаї розповів про деякі з найближчих місць, де з’явиться модель ШІ.

Пічаї згадав штучний інтелект 121 раз у своєму 110-хвилинному виступі, коли ця тема займала центральне місце — Gemini, який був запущений у грудні, потрапив у центр уваги.

Google використовує велику мовну модель (LLM) практично в усіх своїх пропозиціях, включаючи Android, Пошук і Gmail, і ось на що можуть розраховувати користувачі в майбутньому.

Сундар Пічаї на Google I/O 2024. Джерело: Google

Зміст

Взаємодія з програмою
Близнюки в Gmail
Gemini Live
Мультимодальний прогрес

Взаємодія з програмою

Gemini отримує більше контексту, оскільки він зможе взаємодіяти з програмами. У майбутньому оновленні користувачі зможуть викликати Gemini, щоб взаємодіяти з додатками, наприклад перетягувати зображення, створене штучним інтелектом, у повідомлення.

Користувачі YouTube також зможуть натиснути «Запитати це відео», щоб знайти певну інформацію у відео від ШІ.

Близнюки в Gmail

Платформа електронної пошти Google, Gmail, також отримує інтеграцію зі штучним інтелектом, оскільки користувачі зможуть шукати, узагальнювати та створювати проекти своїх електронних листів за допомогою Gemini.

Помічник зі штучним інтелектом зможе виконувати дії з електронними листами для більш складних завдань, таких як допомога в обробці повернень електронної комерції шляхом пошуку в папці “Вхідні”, пошуку квитанції та заповнення онлайн-форм.

Gemini Live

Google також представила новий досвід під назвою Gemini Live, де користувачі можуть проводити «поглиблені» голосові чати зі штучним інтелектом на своїх смартфонах.

Чат-бот можна перервати під час відповіді для роз’яснень, і він адаптуватиметься до моделей мовлення користувачів у режимі реального часу. Крім того, Gemini також може бачити та реагувати на фізичне оточення за допомогою фотографій або відео, знятих на пристрій.

Скріншот з рекламного відео Gemini. Джерело: Google

Мультимодальний прогрес

Google працює над розробкою інтелектуальних агентів ШІ, які можуть міркувати, планувати та виконувати складні багатоетапні завдання від імені користувача під наглядом. Мультимодальний означає, що штучний інтелект може виходити за межі тексту та обробляти зображення, аудіо та відео.

Приклади та випадки раннього використання включають автоматизацію повернення покупок і вивчення нового міста.

За темою: «Вбивця GPT-4» від Google Gemini вийшов, ось як ви можете його спробувати

Серед інших оновлень, які плануються для моделі штучного інтелекту фірми, — заміна Google Assistant на Android з Gemini, повністю інтегрованою в мобільну операційну систему.

Нова функція «Запитувати фотографії» дозволяє шукати в Library фотографій за допомогою запитів на природній мові, розроблених Gemini. Він може розуміти контекст, розпізнавати об’єкти та людей і узагальнювати фотоспогади у відповідь на запитання.

Згенеровані штучним інтелектом підсумкові відомості про місця та райони відображатимуться на Картах Google, використовуючи аналітичні дані з картографічних даних платформи.