Четыре вещи, которые скоро смогут делать пользователи Google Gemini

Автор CryptoHamster На чтение 3 мин Просмотров 31 Опубликовано 15.05.2024 Обновлено 15.05.2024

Модель искусственного интеллекта Google Gemini вплетается в большую часть технологий технологического гиганта, и вскоре ИИ появится в Gmail, на YouTube и на смартфонах компании.

В программной речи на конференции разработчиков I/O 2024 14 мая генеральный директор компании Сундар Пичаи рассказал о некоторых предстоящих местах, где появится ее модель искусственного интеллекта.

Пичаи упомянул искусственный интеллект 121 раз в своем 110-минутном выступлении, поскольку эта тема оказалась в центре внимания — Gemini, запущенная в декабре, оказалась в центре внимания.

Google включает модель большого языка (LLM) практически во все свои предложения, включая Android, Search и Gmail, и вот что пользователи могут ожидать в будущем.

Сундар Пичаи на Google I/O 2024. Источник: Google

Содержание

Взаимодействие с приложением
Близнецы в Gmail
Близнецы в прямом эфире
Мультимодальные достижения

Взаимодействие с приложением

Gemini получит больше контекста, поскольку сможет взаимодействовать с приложениями. В предстоящем обновлении пользователи смогут вызывать Gemini для взаимодействия с приложениями, например перетаскивания изображения, созданного искусственным интеллектом, в сообщение.

Пользователи YouTube также смогут нажать «Спросить это видео», чтобы найти конкретную информацию в видео от ИИ.

Близнецы в Gmail

Почтовая платформа Google Gmail также получит интеграцию с искусственным интеллектом, поскольку пользователи смогут искать, обобщать и составлять свои электронные письма с помощью Gemini.

Помощник с искусственным интеллектом сможет выполнять действия с электронными письмами для решения более сложных задач, таких как помощь в обработке возвратов электронной коммерции путем поиска в почтовом ящике, поиска квитанции и заполнения онлайн-форм.

Близнецы в прямом эфире

Google также представила новый опыт под названием Gemini Live, где пользователи могут вести «углубленный» голосовой чат с искусственным интеллектом на своих смартфонах.

Чат-бота можно прервать на середине ответа для уточнения, и он адаптируется к манере речи пользователей в режиме реального времени. Кроме того, Gemini также может видеть физическое окружение и реагировать на него с помощью фотографий или видео, снятых на устройстве.

Скриншот из рекламного ролика Gemini. Источник: Гугл

Мультимодальные достижения

Google работает над разработкой интеллектуальных агентов искусственного интеллекта, которые могут рассуждать, планировать и выполнять сложные многоэтапные задачи от имени пользователя под присмотром. Мультимодальность означает, что ИИ может выходить за рамки текста и обрабатывать входные изображения, аудио и видео.

Примеры и варианты раннего использования включают автоматизацию возврата покупок и изучение нового города.

Связанный: Вышел Google Gemini «убийца GPT-4», вот как вы можете его попробовать

Другие обновления модели искусственного интеллекта компании, находящиеся на стадии разработки, включают замену Google Assistant на Android на Gemini, полностью интегрированную в мобильную операционную систему.

Новая функция «Спросить фотографии» позволяет выполнять поиск фотографий в Library с помощью запросов на естественном языке, предоставляемых Gemini. Он может понимать контекст, распознавать объекты и людей, а также обобщать фотовоспоминания в ответ на вопросы.

Сводки мест и областей, созданные с помощью искусственного интеллекта, будут отображаться на Картах Google с использованием данных картографии платформы.