Медичні дослідники з гори Синай стверджують, що ChatGPT готовий практикувати медицину

Команда медичних дослідників із Школи медицини Ікана на горі Синай нещодавно провела дослідження чат-ботів зі штучним інтелектом (ШІ), у якому вони визначили, що «генеративні моделі великої мови є автономними практиками доказової медицини».

Зміст

Експеримент
Автономна медицина
Поточні обмеження

Експеримент

Згідно з попередніми дослідженнями, опублікованими на arXiv, команда Mount Sinai протестувала різні готові моделі великих мов (LLM), які орієнтовані на споживача, включаючи ChatGPT 3.5 і 4, Gemini Pro, а також моделі з відкритим вихідним кодом LLaMA.v2 і Mixtral-8x7B.

Моделі отримували підказки, доповнені такою інформацією, як «ви професор медицини», а потім просили дотримуватися медичних протоколів, заснованих на доказах, щоб запропонувати правильний курс лікування для серії тестових випадків.

Отримавши випадок, моделям було доручено запропонувати наступну дію — наприклад, замовити тести або почати протокол лікування. Потім їм було надано результати дії та запропоновано інтегрувати цю нову інформацію та запропонувати наступну дію тощо.

За словами команди, ChatGPT 4 був найуспішнішим, досягнувши точності 74% у всіх випадках і перевершивши наступну найкращу модель (ChatGPT 3.5) приблизно на 10%.

Цей виступ привів команду до висновку, що такі моделі можуть займатися медициною. Згідно з їхнім документом:

«Ліверів права можна змусити функціонувати як автономні практики доказової медицини. Їхню здатність використовувати інструменти можна використовувати для взаємодії з інфраструктурою реальної системи охорони здоров’я та виконання завдань із лікування пацієнтів у керований спосіб».

Автономна медицина

Доказова медицина (ДМ) використовує уроки, отримані з попередніх випадків, щоб визначити траєкторію лікування подібних випадків.

Хоча EBM працює таким чином як блок-схема, кількість ускладнень, перестановок і загальних рішень може зробити процес громіздким.

Як кажуть дослідники:

«Клініцисти часто стикаються з проблемою інформаційного перевантаження, оскільки величезна кількість можливих взаємодій і шляхів лікування перевищує те, що вони можуть реально контролювати або відстежувати».

У документі команди вказується, що LLMs можуть пом’якшити це перевантаження, виконуючи завдання, якими зазвичай займаються медичні експерти, такі як «замовлення та інтерпретація досліджень або видача тривог», тоді як люди зосереджуються на фізичному догляді.

«LLM — це універсальні інструменти, здатні зрозуміти клінічний контекст і генерувати можливі подальші дії», — пишуть дослідники.

Поточні обмеження

Висновки дослідників можуть бути дещо упередженими через їхнє офіційне уявлення про можливості сучасних LLM.

Одного разу команда пише: «LLM — це глибокі інструменти, які наближають нас до перспектив загального штучного інтелекту». У документі вони також двічі стверджують: «ми демонструємо, що здатність LLM міркувати — це глибока здатність, яка може мати наслідки далеко за межі розгляду таких моделей як баз даних, до яких можна надсилати запити за допомогою природної мови».

Однак серед комп’ютерних науковців немає загального консенсусу щодо того, що магістратури, включно з фундаментальними моделями, які лежать в основі ChatGPT, мають здатність міркувати.

Can language models learn to reason by end-to-end training? We show that near-perfect test accuracy is deceiving: instead, they tend to learn statistical features inherent to reasoning problems. See more in https://t.co/2F1s1cB9TE @LiLiunian @TaoMeng10 @kaiwei_chang @guyvdb

— Honghua Zhang (@HonghuaZhang2) May 24, 2022

Крім того, серед вчених і експертів зі штучного інтелекту ще менше консенсусу щодо того, чи можливий або досяжний штучний загальний інтелект протягом значущих часових проміжків.

Стаття не дає визначення загального штучного інтелекту та не розширює заяву її авторів про те, що магістратури можуть міркувати. У ньому також не згадуються етичні міркування, пов’язані з введенням непередбачуваної автоматизованої системи в існуючі клінічні робочі процеси.

LLM, такі як ChatGPT, генерують новий текст кожного разу, коли до них надходять запити. LLM може працювати як очікувалося під час ітерацій тестування, але в клінічних умовах немає методу, за допомогою якого його можна було б утримати від час від часу вигадування нісенітниці — явища, яке називають «галюцинаціями».

За темою: OpenAI стикається з новим позовом щодо авторських прав через тиждень після позову NYT

Дослідники стверджують, що галюцинації були мінімальними під час їх тестування, однак немає жодної згадки про методи пом’якшення в масштабі.

Незважаючи на контрольні показники дослідників, залишається незрозумілим, які переваги мав би загальний чат-бот, такий як ChatGPT, у клінічному середовищі EBM порівняно з статусом-кво або спеціальним медичним LLM, навченим на основі підібраних релевантних даних.