Модель искусственного интеллекта Google Gemini вплетается в большую часть технологий технологического гиганта, и вскоре ИИ появится в Gmail, на YouTube и на смартфонах компании.
В программной речи на конференции разработчиков I/O 2024 14 мая генеральный директор компании Сундар Пичаи рассказал о некоторых предстоящих местах, где появится ее модель искусственного интеллекта.
Пичаи упомянул искусственный интеллект 121 раз в своем 110-минутном выступлении, поскольку эта тема оказалась в центре внимания — Gemini, запущенная в декабре, оказалась в центре внимания.
Google включает модель большого языка (LLM) практически во все свои предложения, включая Android, Search и Gmail, и вот что пользователи могут ожидать в будущем.
Взаимодействие с приложением
Gemini получит больше контекста, поскольку сможет взаимодействовать с приложениями. В предстоящем обновлении пользователи смогут вызывать Gemini для взаимодействия с приложениями, например перетаскивания изображения, созданного искусственным интеллектом, в сообщение.
Пользователи YouTube также смогут нажать «Спросить это видео», чтобы найти конкретную информацию в видео от ИИ.
Близнецы в Gmail
Почтовая платформа Google Gmail также получит интеграцию с искусственным интеллектом, поскольку пользователи смогут искать, обобщать и составлять свои электронные письма с помощью Gemini.
Помощник с искусственным интеллектом сможет выполнять действия с электронными письмами для решения более сложных задач, таких как помощь в обработке возвратов электронной коммерции путем поиска в почтовом ящике, поиска квитанции и заполнения онлайн-форм.
Близнецы в прямом эфире
Google также представила новый опыт под названием Gemini Live, где пользователи могут вести «углубленный» голосовой чат с искусственным интеллектом на своих смартфонах.
Чат-бота можно прервать на середине ответа для уточнения, и он адаптируется к манере речи пользователей в режиме реального времени. Кроме того, Gemini также может видеть физическое окружение и реагировать на него с помощью фотографий или видео, снятых на устройстве.
Мультимодальные достижения
Google работает над разработкой интеллектуальных агентов искусственного интеллекта, которые могут рассуждать, планировать и выполнять сложные многоэтапные задачи от имени пользователя под присмотром. Мультимодальность означает, что ИИ может выходить за рамки текста и обрабатывать входные изображения, аудио и видео.
Примеры и варианты раннего использования включают автоматизацию возврата покупок и изучение нового города.
Связанный: Вышел Google Gemini «убийца GPT-4», вот как вы можете его попробовать
Другие обновления модели искусственного интеллекта компании, находящиеся на стадии разработки, включают замену Google Assistant на Android на Gemini, полностью интегрированную в мобильную операционную систему.
Новая функция «Спросить фотографии» позволяет выполнять поиск фотографий в Library с помощью запросов на естественном языке, предоставляемых Gemini. Он может понимать контекст, распознавать объекты и людей, а также обобщать фотовоспоминания в ответ на вопросы.
Сводки мест и областей, созданные с помощью искусственного интеллекта, будут отображаться на Картах Google с использованием данных картографии платформы.