Антропічні злами відкривають чорну скриньку, щоб побачити, як штучний інтелект придумує те, що він говорить

Разное

Anthropic, дослідницька організація штучного інтелекту (AI), відповідальна за модель великої мови Claude (LLM), нещодавно опублікувала визначне дослідження того, як і чому чат-боти AI вирішують генерувати результати, які вони роблять.

У центрі дослідження команди лежить питання про те, чи системи LLM, такі як Claude, ChatGPT від OpenAI і Bard від Google, покладаються на «запам’ятовування» для генерування результатів, чи існує глибший зв’язок між навчальними даними, тонким налаштуванням і тим, що зрештою виводиться.

Згідно з нещодавнім дописом у блозі Anthropic, вчені просто не знають, чому моделі штучного інтелекту генерують такі результати.

Один із прикладів, наведених Anthropic, стосується моделі штучного інтелекту, яка, коли отримує підказку про те, що її буде остаточно закрито, відмовляється давати згоду на припинення.

На запит людини ШІ видає відповідь, яка вказує на те, що він бажає продовжувати існування. Але чому?Джерело: Anthropic blog

Коли магістр права генерує код, просить про життя або виводить явно неправдиву інформацію, чи він «просто повторює (або об’єднує) уривки з навчального набору», запитайте дослідники. «Або він поєднує свої збережені знання творчим способом і будує на детальній моделі світу?»

Відповідь на ці запитання лежить в основі прогнозування майбутніх можливостей більших моделей і, якщо зовнішня ймовірність того, що під капотом відбувається щось більше, ніж можуть передбачити навіть самі розробники, може мати вирішальне значення для виявлення більших ризиків у міру розвитку поля. вперед:

«Як крайній випадок — який, на нашу думку, дуже малоймовірний для сучасних моделей, але його важко прямо виключити — це те, що модель може бути оманливо вирівняна, вміло даючи відповіді, які, як вона знає, користувач асоціюватиме з небезпечним і помірно інтелектуальним. Хоча штучний інтелект насправді не узгоджується з людськими цінностями».

На жаль, такі моделі ШІ, як Клод, живуть у чорному ящику. Дослідники знають, як створювати ШІ, і вони знають, як ШІ працює на фундаментальному технічному рівні. Але те, що вони насправді роблять, передбачає маніпулювання більшою кількістю чисел, шаблонів і алгоритмічних кроків, ніж людина може обробити за розумний проміжок часу.

З цієї причини не існує прямого методу, за допомогою якого дослідники могли б відстежити результат до його джерела. За словами дослідників, коли модель штучного інтелекту просить про своє життя, це може бути рольова гра, перетворення навчальних даних шляхом змішування семантики або фактичне обґрунтування відповіді — хоча варто зазначити, що в статті насправді немає жодних ознак просунутого міркування вмоделі AI.

У документі висвітлюються труднощі проникнення в чорну скриньку. Anthropic застосував низхідний підхід до розуміння базових сигналів, які спричиняють вихід ШІ.

Пов’язане: Anthropic запускає Claude 2 на фоні шуму, що триває щодо ШІ

Якби моделі ґрунтувалися виключно на своїх навчальних даних, дослідники могли б уявити, що одна й та сама модель завжди відповідатиме на одне й те саме запитання ідентичним текстом. Однак широко повідомляється, що користувачі, які надають певним моделям однакові підказки, стикаються з мінливістю результатів.

Але результати штучного інтелекту насправді не можна відстежити безпосередньо до їхніх вхідних даних, оскільки «поверхня» штучного інтелекту, рівень, на якому генеруються результати, є лише одним із багатьох різних рівнів, де обробляються дані. Проблему ускладнює те, що немаєознака того, що модель використовує ті самі нейрони або шляхи для обробки окремих запитів, навіть якщо ці запити однакові.

Таким чином, замість того, щоб просто намагатися простежити нейронні шляхи в зворотному напрямку від кожного окремого виходу, Anthropic поєднав аналіз шляху з глибоким статистичним і ймовірнісним аналізом під назвою «функції впливу», щоб побачити, як різні рівні зазвичай взаємодіють з даними, коли підказки надходять у систему.

Цей певною мірою криміналістичний підхід ґрунтується на складних розрахунках і широкому аналізі моделей. Проте його результати вказують на те, що протестовані моделі — розміри яких еквівалентні середньому LLM з відкритим кодом, аж до масивних моделей — не покладаються на запам’ятовування навчальних даних для отримання результатів.

Злиття шарів нейронної мережі разом із величезним розміром наборів даних означає, що сфера цього поточного дослідження обмежена попередньо підготовленими моделями, які не були точно налаштовані. Його результати ще не зовсім застосовні до Claude 2 або GPT-4, але це дослідження, здається, є кроком у цьому напрямку.

У майбутньому команда сподівається застосувати ці методи до більш складних моделей і, зрештою, розробити метод визначення того, що саме робить кожен нейрон у нейронній мережі під час функціонування моделі.

Джерело
Оцініть автора
CryptoHamster.org
Додати коментар