Медицинские исследователи горы Синай утверждают, что ChatGPT готов заниматься медицинской практикой

Группа медицинских исследователей из Медицинской школы Икан на горе Синай недавно провела исследование чат-ботов с искусственным интеллектом (ИИ), в ходе которого они определили, что «генеративные модели большого языка являются автономными практиками доказательной медицины».

Содержание

Эксперимент
Автономная медицина
Текущие ограничения

Эксперимент

Согласно предварительному исследованию, опубликованному на arXiv, команда Mount Sinai протестировала различные готовые модели больших языков (LLM), ориентированные на потребителя, включая ChatGPT 3.5 и 4 и Gemini Pro, а также модели с открытым исходным кодом LLaMA.v2 и Mixtral-8x7B.

Модельям давались подсказки с такой информацией, как «вы профессор медицины», а затем их просили следовать научно обоснованным медицинским протоколам, чтобы предложить правильный курс лечения для серии тестовых случаев.

После рассмотрения случая моделям было поручено предложить следующее действие — например, заказать анализы или начать протокол лечения. Затем им были предоставлены результаты действия и предложено интегрировать эту новую информацию, предложить следующее действие и так далее.

По мнению команды, ChatGPT 4 оказался наиболее успешным, достигнув точности 74 % во всех случаях и превзойдя следующую лучшую модель (ChatGPT 3.5) примерно на 10 %.

Это выступление привело команду к выводу, что подобные модели могут использоваться в медицине. Согласно их статье:

«Могут стать независимыми практикующими врачами доказательной медицины. Их способность использовать инструменты можно использовать для взаимодействия с инфраструктурой реальной системы здравоохранения и выполнения задач по ведению пациентов в соответствии с рекомендациями».

Автономная медицина

Доказательная медицина (ДМ) использует уроки, извлеченные из предыдущих случаев, чтобы определить траекторию лечения подобных случаев.

Хотя EBM в этом смысле работает как блок-схема, количество сложностей, перестановок и общих решений может сделать процесс громоздким.

Как говорят исследователи:

«Клиницисты часто сталкиваются с проблемой информационной перегрузки, поскольку огромное количество возможных взаимодействий и путей лечения превышает то, что они могут реально контролировать или отслеживать».

В документе команды указывается, что LLM могут смягчить эту перегрузку, выполняя задачи, обычно выполняемые медицинскими экспертами, такие как «заказ и интерпретация исследований или подача сигналов тревоги», в то время как люди сосредотачиваются на физическом уходе.

«LLM — это универсальные инструменты, способные понимать клинический контекст и генерировать возможные последующие действия», — пишут исследователи.

Текущие ограничения

Выводы исследователей могут быть несколько искажены их заявленным восприятием возможностей современных программ LLM.

В какой-то момент команда пишет: «LLM — это глубокие инструменты, которые приближают нас к обещанию общего искусственного интеллекта». Они также дважды делают в документе следующее заявление: «Мы демонстрируем, что способность студентов-магистров рассуждать — это глубокая способность, которая может иметь последствия, выходящие далеко за рамки рассмотрения таких моделей как баз данных, к которым можно запрашивать с использованием естественного языка».

Однако среди ученых-компьютерщиков нет единого мнения о том, что LLM, включая основополагающие модели, лежащие в основе ChatGPT, обладают какой-либо способностью рассуждать.

Can language models learn to reason by end-to-end training? We show that near-perfect test accuracy is deceiving: instead, they tend to learn statistical features inherent to reasoning problems. See more in https://t.co/2F1s1cB9TE @LiLiunian @TaoMeng10 @kaiwei_chang @guyvdb

— Honghua Zhang (@HonghuaZhang2) May 24, 2022

Более того, среди учёных и экспертов по искусственному интеллекту ещё меньше консенсуса относительно того, возможен ли или достижим общий искусственный интеллект в значимые сроки.

В статье не дается определение общего искусственного интеллекта и не расширяется заявление авторов о том, что студенты-магистры могут рассуждать. В нем также не упоминаются этические соображения, связанные с внедрением непредсказуемой автоматизированной системы в существующие клинические рабочие процессы.

LLM, такие как ChatGPT, генерируют новый текст каждый раз при запросе. LLM может работать так, как ожидалось, во время итераций тестирования, но в клинических условиях не существует метода, с помощью которого можно было бы удержать его от случайного выдумывания чепухи — явления, называемого «галлюцинациями».

Связанный: OpenAI сталкивается с новым иском о нарушении авторских прав через неделю после иска NYT

Исследователи утверждают, что во время испытаний галлюцинации были минимальными, однако о масштабных методах их смягчения не упоминается.

Несмотря на оценки исследователей, остается неясным, какие преимущества общий чат-бот, такой как ChatGPT, будет иметь в клинической среде доказательной медицины по сравнению со статус-кво или специализированным медицинским LLM, обученным на корпусе тщательно подобранных релевантных данных.