Исследователи искусственного интеллекта (ИИ) из Google Research и Google DeepMind разработали метод, с помощью которого большую языковую модель (LLM) можно дополнить другими языковыми моделями.
Это решает одну из самых больших нерешенных проблем LLM, позволяя разработчикам наполнять существующие модели новыми возможностями без необходимости начинать с нуля или участвовать в дорогостоящих сеансах переподготовки/тонкой настройки.
По мнению исследовательской группы Google, дополнение LLM другим языком не только повышает производительность существующих задач, но и позволяет решать новые задачи, которые модели не могут решить сами по себе.
Обучение старых чат-ботов новым трюкам
Исследование проводилось с использованием Google PaLM2-S LLM, модели, которую, по словам компании, можно сравнить с GPT-4, ИИ, лежащим в основе ChatGPT OpenAI.
PaLM2-S сам по себе тестировался в экспериментах команды, а затем снова был дополнен меньшими специализированными языковыми моделями. Выполненные задачи включали перевод, где расширенная версия показала улучшение на 13 % по сравнению с базовым уровнем, и кодирование.
Согласно статье, при тестировании в задачах кодирования гибридная модель показала значительные улучшения:
«Аналогично, когда PaLM2-S дополняется моделью, специфичной для кода, мы видим относительное улучшение на 40% по сравнению с базовой моделью для задач генерации кода и объяснения — на уровне полностью настроенных аналогов».
Потенциально серьезные последствия
На первый взгляд, продемонстрированный прирост производительности может иметь немедленные последствия для сектора искусственного интеллекта. Например, повышение производительности при выполнении задач по переводу, очевидно, было наибольшим при переводе с языка с низкой поддержкой на английский. Это остается нерешенной проблемой в машинном обучении, и работа Google в этом направлении может изменить ситуацию.
Однако в более широком плане вполне возможно, что это направление исследований может решить надвигающийся дамоклов меч, висящий над головами многих технических руководителей в секторе искусственного интеллекта: проблемы с законом, которые могут разрушить саму основу чат-ботов, таких как ChatGPT.
Авторское право VS Искусственный интеллект
Создатели некоторых из самых популярных моделей большого языка были названы ответчиками в многочисленных судебных процессах, связанных с обвинениями в том, что эти системы искусственного интеллекта обучаются на данных, защищенных авторским правом.
Вопрос, на который законодателям и судам придется ответить, заключается в том, может ли коммерческая компания законно использовать эти данные для обучения своих языковых моделей. В крайнем случае, если суды постановят, что разработчики не могут использовать такие данные и что любые модели, обученные на материалах, защищенных авторским правом, должны быть удалены, продолжение предложения затронутых услуг может оказаться технически невозможным или финансово невозможным.
По сути, из-за высоких затрат на обучение больших языковых моделей и их зависимости от огромных объемов данных такие продукты, как ChatGPT, в том виде, в каком они созданы сегодня, могут оказаться нежизнеспособными в более регулируемой среде искусственного интеллекта в США.
Однако, если новая схема расширения LLM от Google окажется успешной при дальнейшем развитии, вполне возможно, что многие требования к масштабированию и затраты на создание LLM с нуля или переобучение существующего могут быть смягчены.
По теме: Италия сделает регулирование искусственного интеллекта одним из главных приоритетов во время председательства в G7