Команда медичних дослідників із Школи медицини Ікана на горі Синай нещодавно провела дослідження чат-ботів зі штучним інтелектом (ШІ), у якому вони визначили, що «генеративні моделі великої мови є автономними практиками доказової медицини».
Згідно з попередніми дослідженнями, опублікованими на arXiv, команда Mount Sinai протестувала різні готові моделі великих мов (LLM), які орієнтовані на споживача, включаючи ChatGPT 3.5 і 4, Gemini Pro, а також моделі з відкритим вихідним кодом LLaMA.v2 і Mixtral-8x7B.
Моделі отримували підказки, доповнені такою інформацією, як «ви професор медицини», а потім просили дотримуватися медичних протоколів, заснованих на доказах, щоб запропонувати правильний курс лікування для серії тестових випадків.
Отримавши випадок, моделям було доручено запропонувати наступну дію — наприклад, замовити тести або почати протокол лікування. Потім їм було надано результати дії та запропоновано інтегрувати цю нову інформацію та запропонувати наступну дію тощо.
За словами команди, ChatGPT 4 був найуспішнішим, досягнувши точності 74% у всіх випадках і перевершивши наступну найкращу модель (ChatGPT 3.5) приблизно на 10%.
Цей виступ привів команду до висновку, що такі моделі можуть займатися медициною. Згідно з їхнім документом:
«Ліверів права можна змусити функціонувати як автономні практики доказової медицини. Їхню здатність використовувати інструменти можна використовувати для взаємодії з інфраструктурою реальної системи охорони здоров’я та виконання завдань із лікування пацієнтів у керований спосіб».
Доказова медицина (ДМ) використовує уроки, отримані з попередніх випадків, щоб визначити траєкторію лікування подібних випадків.
Хоча EBM працює таким чином як блок-схема, кількість ускладнень, перестановок і загальних рішень може зробити процес громіздким.
Як кажуть дослідники:
«Клініцисти часто стикаються з проблемою інформаційного перевантаження, оскільки величезна кількість можливих взаємодій і шляхів лікування перевищує те, що вони можуть реально контролювати або відстежувати».
У документі команди вказується, що LLMs можуть пом’якшити це перевантаження, виконуючи завдання, якими зазвичай займаються медичні експерти, такі як «замовлення та інтерпретація досліджень або видача тривог», тоді як люди зосереджуються на фізичному догляді.
«LLM — це універсальні інструменти, здатні зрозуміти клінічний контекст і генерувати можливі подальші дії», — пишуть дослідники.
Висновки дослідників можуть бути дещо упередженими через їхнє офіційне уявлення про можливості сучасних LLM.
Одного разу команда пише: «LLM — це глибокі інструменти, які наближають нас до перспектив загального штучного інтелекту». У документі вони також двічі стверджують: «ми демонструємо, що здатність LLM міркувати — це глибока здатність, яка може мати наслідки далеко за межі розгляду таких моделей як баз даних, до яких можна надсилати запити за допомогою природної мови».
Однак серед комп’ютерних науковців немає загального консенсусу щодо того, що магістратури, включно з фундаментальними моделями, які лежать в основі ChatGPT, мають здатність міркувати.
https://twitter.com/HonghuaZhang2/status/1528963938825580544?ref_src=twsrc%5Etfw
Крім того, серед вчених і експертів зі штучного інтелекту ще менше консенсусу щодо того, чи можливий або досяжний штучний загальний інтелект протягом значущих часових проміжків.
Стаття не дає визначення загального штучного інтелекту та не розширює заяву її авторів про те, що магістратури можуть міркувати. У ньому також не згадуються етичні міркування, пов’язані з введенням непередбачуваної автоматизованої системи в існуючі клінічні робочі процеси.
LLM, такі як ChatGPT, генерують новий текст кожного разу, коли до них надходять запити. LLM може працювати як очікувалося під час ітерацій тестування, але в клінічних умовах немає методу, за допомогою якого його можна було б утримати від час від часу вигадування нісенітниці — явища, яке називають «галюцинаціями».
За темою: OpenAI стикається з новим позовом щодо авторських прав через тиждень після позову NYT
Дослідники стверджують, що галюцинації були мінімальними під час їх тестування, однак немає жодної згадки про методи пом’якшення в масштабі.
Незважаючи на контрольні показники дослідників, залишається незрозумілим, які переваги мав би загальний чат-бот, такий як ChatGPT, у клінічному середовищі EBM порівняно з статусом-кво або спеціальним медичним LLM, навченим на основі підібраних релевантних даних.
Гігант з розробки програмного забезпечення Oracle Corporation знову подав до суду на криптовалютний стартап Oracle…
Майнер криптовалюти MARA Holdings закликав Сполучені Штати діяти більш агресивно, щоб «забезпечити домінуючі позиції в…
Повідомляється, що нова адміністрація Дональда Трампа хоче, щоб Комісія з торгівлі товарними ф’ючерсами наглядала за…
Група постраждалих художників і ранніх тестувальників неопублікованого інструменту OpenAI для перетворення тексту у відео Sora…
Фірма, що займається інфраструктурою блокчейну, Flashbots, запустила BuilderNet, децентралізовану мережу для побудови блоків на Ethereum,…
Апеляційний суд Сполучених Штатів скасував рішення суду нижчої інстанції, визнавши, що Управління з контролю за…