Категории: Новости

Медицинские исследователи горы Синай утверждают, что ChatGPT готов заниматься медицинской практикой

Группа медицинских исследователей из Медицинской школы Икан на горе Синай недавно провела исследование чат-ботов с искусственным интеллектом (ИИ), в ходе которого они определили, что «генеративные модели большого языка являются автономными практиками доказательной медицины».

Эксперимент

Согласно предварительному исследованию, опубликованному на arXiv, команда Mount Sinai протестировала различные готовые модели больших языков (LLM), ориентированные на потребителя, включая ChatGPT 3.5 и 4 и Gemini Pro, а также модели с открытым исходным кодом LLaMA.v2 и Mixtral-8x7B.

Модельям давались подсказки с такой информацией, как «вы профессор медицины», а затем их просили следовать научно обоснованным медицинским протоколам, чтобы предложить правильный курс лечения для серии тестовых случаев.

После рассмотрения случая моделям было поручено предложить следующее действие — например, заказать анализы или начать протокол лечения. Затем им были предоставлены результаты действия и предложено интегрировать эту новую информацию, предложить следующее действие и так далее.

По мнению команды, ChatGPT 4 оказался наиболее успешным, достигнув точности 74 % во всех случаях и превзойдя следующую лучшую модель (ChatGPT 3.5) примерно на 10 %.

Это выступление привело команду к выводу, что подобные модели могут использоваться в медицине. Согласно их статье:

«Могут стать независимыми практикующими врачами доказательной медицины. Их способность использовать инструменты можно использовать для взаимодействия с инфраструктурой реальной системы здравоохранения и выполнения задач по ведению пациентов в соответствии с рекомендациями».

Автономная медицина

Доказательная медицина (ДМ) использует уроки, извлеченные из предыдущих случаев, чтобы определить траекторию лечения подобных случаев.

Хотя EBM в этом смысле работает как блок-схема, количество сложностей, перестановок и общих решений может сделать процесс громоздким.

Как говорят исследователи:

«Клиницисты часто сталкиваются с проблемой информационной перегрузки, поскольку огромное количество возможных взаимодействий и путей лечения превышает то, что они могут реально контролировать или отслеживать».

В документе команды указывается, что LLM могут смягчить эту перегрузку, выполняя задачи, обычно выполняемые медицинскими экспертами, такие как «заказ и интерпретация исследований или подача сигналов тревоги», в то время как люди сосредотачиваются на физическом уходе.

«LLM — это универсальные инструменты, способные понимать клинический контекст и генерировать возможные последующие действия», — пишут исследователи.

Текущие ограничения

Выводы исследователей могут быть несколько искажены их заявленным восприятием возможностей современных программ LLM.

В какой-то момент команда пишет: «LLM — это глубокие инструменты, которые приближают нас к обещанию общего искусственного интеллекта». Они также дважды делают в документе следующее заявление: «Мы демонстрируем, что способность студентов-магистров рассуждать — это глубокая способность, которая может иметь последствия, выходящие далеко за рамки рассмотрения таких моделей как баз данных, к которым можно запрашивать с использованием естественного языка».

Однако среди ученых-компьютерщиков нет единого мнения о том, что LLM, включая основополагающие модели, лежащие в основе ChatGPT, обладают какой-либо способностью рассуждать.

https://twitter.com/HonghuaZhang2/status/1528963938825580544?ref_src=twsrc%5Etfw

Более того, среди учёных и экспертов по искусственному интеллекту ещё меньше консенсуса относительно того, возможен ли или достижим общий искусственный интеллект в значимые сроки.

В статье не дается определение общего искусственного интеллекта и не расширяется заявление авторов о том, что студенты-магистры могут рассуждать. В нем также не упоминаются этические соображения, связанные с внедрением непредсказуемой автоматизированной системы в существующие клинические рабочие процессы.

LLM, такие как ChatGPT, генерируют новый текст каждый раз при запросе. LLM может работать так, как ожидалось, во время итераций тестирования, но в клинических условиях не существует метода, с помощью которого можно было бы удержать его от случайного выдумывания чепухи — явления, называемого «галлюцинациями».

Связанный: OpenAI сталкивается с новым иском о нарушении авторских прав через неделю после иска NYT

Исследователи утверждают, что во время испытаний галлюцинации были минимальными, однако о масштабных методах их смягчения не упоминается.

Несмотря на оценки исследователей, остается неясным, какие преимущества общий чат-бот, такой как ChatGPT, будет иметь в клинической среде доказательной медицины по сравнению со статус-кво или специализированным медицинским LLM, обученным на корпусе тщательно подобранных релевантных данных.

CryptoHamster

Недавние статьи

Криптовалютный кредитор Shezmu возвращает взломанные средства путем переговоров

Используя протокол доходности, Шезму вернул почти 5 миллионов долларов украденных средств в течение нескольких часов…

5 часов ago

ИИ может привести к инфляционному давлению: Банк Канады

Управляющий Банка Канады Тифф Маклем заявил, что инвестиции в искусственный интеллект (ИИ) могут привести к…

5 часов ago

Неудержимый восходящий тренд Bittensor (TAO): рост на 40%, поскольку эксперты прогнозируют будущий рост цен

Децентрализованная сеть блокчейн Bittensor и ее собственный токен TAO продемонстрировали значительный рост за последний месяц,…

7 часов ago

Powerledger интегрируется с экосистемой основной сети Solana

Австралийская энергетическая технологическая компания Powerledger объявила о своем расширении в экосистему Solana, заявив, что она…

7 часов ago

Найиб Букеле встретился с Илоном Маском в Tesla, чтобы обсудить искусственный интеллект и будущее человечества

Президент Сальвадора Найиб Букеле посетил штаб-квартиру Tesla, чтобы встретиться с Илоном Маском и обсудить, среди…

8 часов ago

Более 150 000 ETH перешли на биржи за последние 24 часа: что будет с Ethereum дальше?

Согласно данным CoinMarketCap, Ethereum растет, прибавив приличные 5% за последний день и почти 10% за…

8 часов ago