Группа медицинских исследователей из Медицинской школы Икан на горе Синай недавно провела исследование чат-ботов с искусственным интеллектом (ИИ), в ходе которого они определили, что «генеративные модели большого языка являются автономными практиками доказательной медицины».
Согласно предварительному исследованию, опубликованному на arXiv, команда Mount Sinai протестировала различные готовые модели больших языков (LLM), ориентированные на потребителя, включая ChatGPT 3.5 и 4 и Gemini Pro, а также модели с открытым исходным кодом LLaMA.v2 и Mixtral-8x7B.
Модельям давались подсказки с такой информацией, как «вы профессор медицины», а затем их просили следовать научно обоснованным медицинским протоколам, чтобы предложить правильный курс лечения для серии тестовых случаев.
После рассмотрения случая моделям было поручено предложить следующее действие — например, заказать анализы или начать протокол лечения. Затем им были предоставлены результаты действия и предложено интегрировать эту новую информацию, предложить следующее действие и так далее.
По мнению команды, ChatGPT 4 оказался наиболее успешным, достигнув точности 74 % во всех случаях и превзойдя следующую лучшую модель (ChatGPT 3.5) примерно на 10 %.
Это выступление привело команду к выводу, что подобные модели могут использоваться в медицине. Согласно их статье:
«Могут стать независимыми практикующими врачами доказательной медицины. Их способность использовать инструменты можно использовать для взаимодействия с инфраструктурой реальной системы здравоохранения и выполнения задач по ведению пациентов в соответствии с рекомендациями».
Доказательная медицина (ДМ) использует уроки, извлеченные из предыдущих случаев, чтобы определить траекторию лечения подобных случаев.
Хотя EBM в этом смысле работает как блок-схема, количество сложностей, перестановок и общих решений может сделать процесс громоздким.
Как говорят исследователи:
«Клиницисты часто сталкиваются с проблемой информационной перегрузки, поскольку огромное количество возможных взаимодействий и путей лечения превышает то, что они могут реально контролировать или отслеживать».
В документе команды указывается, что LLM могут смягчить эту перегрузку, выполняя задачи, обычно выполняемые медицинскими экспертами, такие как «заказ и интерпретация исследований или подача сигналов тревоги», в то время как люди сосредотачиваются на физическом уходе.
«LLM — это универсальные инструменты, способные понимать клинический контекст и генерировать возможные последующие действия», — пишут исследователи.
Выводы исследователей могут быть несколько искажены их заявленным восприятием возможностей современных программ LLM.
В какой-то момент команда пишет: «LLM — это глубокие инструменты, которые приближают нас к обещанию общего искусственного интеллекта». Они также дважды делают в документе следующее заявление: «Мы демонстрируем, что способность студентов-магистров рассуждать — это глубокая способность, которая может иметь последствия, выходящие далеко за рамки рассмотрения таких моделей как баз данных, к которым можно запрашивать с использованием естественного языка».
Однако среди ученых-компьютерщиков нет единого мнения о том, что LLM, включая основополагающие модели, лежащие в основе ChatGPT, обладают какой-либо способностью рассуждать.
https://twitter.com/HonghuaZhang2/status/1528963938825580544?ref_src=twsrc%5Etfw
Более того, среди учёных и экспертов по искусственному интеллекту ещё меньше консенсуса относительно того, возможен ли или достижим общий искусственный интеллект в значимые сроки.
В статье не дается определение общего искусственного интеллекта и не расширяется заявление авторов о том, что студенты-магистры могут рассуждать. В нем также не упоминаются этические соображения, связанные с внедрением непредсказуемой автоматизированной системы в существующие клинические рабочие процессы.
LLM, такие как ChatGPT, генерируют новый текст каждый раз при запросе. LLM может работать так, как ожидалось, во время итераций тестирования, но в клинических условиях не существует метода, с помощью которого можно было бы удержать его от случайного выдумывания чепухи — явления, называемого «галлюцинациями».
Связанный: OpenAI сталкивается с новым иском о нарушении авторских прав через неделю после иска NYT
Исследователи утверждают, что во время испытаний галлюцинации были минимальными, однако о масштабных методах их смягчения не упоминается.
Несмотря на оценки исследователей, остается неясным, какие преимущества общий чат-бот, такой как ChatGPT, будет иметь в клинической среде доказательной медицины по сравнению со статус-кво или специализированным медицинским LLM, обученным на корпусе тщательно подобранных релевантных данных.
Апелляционный суд США отменил решение суда низшей инстанции, установив, что Управление по контролю за иностранными…
В интервью CNBC в понедельник Фред Тиль, генеральный директор Marathon Digital Holdings (NASDAQ: MARA), поделился…
Недавно предложенный Конгрессу Бразилии законопроект планирует создать суверенный федеральный биткоин-резерв, что потенциально изменит подход страны…
Цена Dogecoin готовится к крупному бычьему ралли с тех пор, как она поднялась до порога…
Согласно объявлению от 25 ноября, VanEck продлевает освобождение от комиссий для VanEck Bitcoin ETF (HODL),…
NYSE Arca подала заявку на листинг и торговлю акциями биржевого продукта, предлагаемого фирмой по управлению…