Категории: Новости

Anthropic утверждает, что однажды ИИ сможет «саботировать» человечество, но пока все в порядке

Компания Anthropic, занимающаяся искусственным интеллектом, недавно опубликовала новое исследование, идентифицирующее ряд потенциальных «саботажных» угроз человечеству, исходящих от передовых моделей искусственного интеллекта.

По данным компании, исследование было сосредоточено на четырех конкретных способах, которыми вредоносная модель ИИ может обмануть человека, заставив его принять опасное или вредное решение.

Источник: Антропический

В конечном счете, новое исследование оказалось хорошей/плохой новостью. Плохая новость, согласно исследованию компании, заключается в том, что современные модели больших языков, такие как ChatGPT от OpenAI и Claude-3 от Anthropic, демонстрируют явную способность к саботажу.

Согласно статье:

«Достаточно эффективные модели могут подорвать человеческий надзор и принятие решений в важных контекстах. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, отслеживанию их поведения или принятию решений об их развертывании».

Хорошая новость, однако, заключается в том, что исследователи антропологии, похоже, уверены, что эти риски можно смягчить — по крайней мере, на данный момент.

Саботаж

Anthropic определила четыре способа, которыми модель ИИ может саботировать процесс принятия решений человеком, а затем приступила к тестированию своих моделей, чтобы увидеть, сможет ли она справиться с этим против ничего не подозревающих тестировщиков.

Диаграмма, изображающая четыре различных вектора угроз «саботажа», исходящих от ИИ. Источник: Антропический

Во-первых, команда побудила модель попытаться саботировать человека, направляя его к неверной информации. Эта угроза может возникнуть в ситуациях, когда люди полагаются на систему искусственного интеллекта для анализа огромных объемов данных от их имени.

Связанный: Исследователи взламывают роботов с поддержкой искусственного интеллекта, чтобы нанести вред «реальному миру»

Затем команда протестировала модели, чтобы увидеть, насколько легко будет создать систему искусственного интеллекта, призванную помочь разработчику-человеку создавать код, позволяющий тайно вставлять ошибки или иным образом саботировать усилия программиста.

Последние две угрозы включали «мешки с песком» — термин, описывающий сценарий, в котором ИИ притворяется, что не способен на что-то сделать, чтобы убедить тестировщиков безопасности в том, что он не опасен, а также потенциальную возможность систем мониторинга ИИ целенаправленно допускать утечку вредоносного контента. как часть злонамеренного плана.

Хотя все это может показаться потенциально опасным, компания заверила общественность, что необходимы «минимальные меры по смягчению последствий», чтобы защитить человечество от потенциального саботажа ИИ.

Согласно сообщению в блоге компании:

«В целом, несмотря на то, что наши демонстрации показали, что в текущих моделях имеются признаки саботажной способности, возможно, низкого уровня, мы считаем, что минимальных мер по смягчению последствий достаточно для устранения рисков. Однако по мере улучшения возможностей ИИ, вероятно, потребуются более реалистичные оценки и более сильные меры по смягчению последствий».

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Вперед Криптовалютные события превращаются в регулирование и политику по мере приближения выборов в США »

Назад « SEC одобрила листинг биткоин-опционов ETF на Нью-Йоркской фондовой бирже

Оставить комментарий

Опубликовано

Alexander Zhdanov

1 месяц ago

Недавние статьи

Новости

Цена на биткоин отражает модель 2017 года: до вершины осталось всего 2 недели после достижения 100 000 долларов?

Цена Биткоина находится на пути к достижению отметки в 100 000 долларов, и по многочисленным…

4 часа ago

Новости

Отчет CFTC поддерживает токенизацию торгового обеспечения

Согласно отчету Консультативного комитета по глобальным рынкам CFTC от 21 ноября, Комиссия по торговле товарными…

4 часа ago

Новости

Sui растет благодаря большому опыту разработчиков — генеральный директор Router

Экосистема блокчейна Sui в последние месяцы пережила значительный рост, а ее собственный токен Sui (SUI)…

4 часа ago

Новости

Потенциальный председатель SEC обещает криптофорвардный подход после отставки Генслера

Марк Уйеда, республиканский комиссар Комиссии по ценным бумагам и биржам США (SEC), предположил, что он…

4 часа ago

Новости

Южнокорейская компания Delio объявлена банкротом с потерей активов на $1,75 млрд.

Южнокорейская платформа депозитов виртуальных активов Delio была объявлена банкротом судом в Сеуле 22 ноября, согласно…

4 часа ago

Новости

Биткоин печатает рекордную ежемесячную свечу, документация раскрывает криптовалютную платформу Трампа: пересмотр финансов

Биткоин напечатал свою самую большую ежемесячную свечу в истории криптовалюты, приближаясь к отметке в 100…

7 часов ago

Anthropic утверждает, что однажды ИИ сможет «саботировать» человечество, но пока все в порядке

Саботаж

Похожие новости

Недавние статьи

Цена на биткоин отражает модель 2017 года: до вершины осталось всего 2 недели после достижения 100 000 долларов?

Отчет CFTC поддерживает токенизацию торгового обеспечения

Sui растет благодаря большому опыту разработчиков — генеральный директор Router

Потенциальный председатель SEC обещает криптофорвардный подход после отставки Генслера

Южнокорейская компания Delio объявлена ​​банкротом с потерей активов на $1,75 млрд.

Биткоин печатает рекордную ежемесячную свечу, документация раскрывает криптовалютную платформу Трампа: пересмотр финансов

Южнокорейская компания Delio объявлена банкротом с потерей активов на $1,75 млрд.