Нова модель Google Gemini AI домінує в тестах, перемагаючи GPT-4o та Claude-3

Автор Anna Kuznetsova На читання 2 хв Переглядів 22 Опубліковано 01.08.2024 Оновлено 02.08.2024

У світі тестів генеративного штучного інтелекту з’явилася нова найкраща модель — Gemini 1.5 Pro.

Попередній чемпіон, ChatGPT-4o від OpenAI, був нарешті перевершений 1 серпня, коли Google тихо запустила експериментальний випуск своєї останньої моделі.

Останнє оновлення Gemini надійшло без помпи і наразі позначене як експериментальне. Але він швидко привернув увагу спільноти штучного інтелекту в соціальних мережах, оскільки почали надходити повідомлення про те, що він перевершує своїх конкурентів за результатами тестування.

Еталонні показники штучного інтелекту

ChatGPT від OpenAI є стандартним носієм генеративного ШІ з моменту запуску GPT-3. Його остання модель, GPT-4o, і його найближчий конкурент, Claude-3 від Anthropic, протягом останнього року чи близько того з незначною конкуренцією переважали більшість інших моделей у більшості поширених тестів.

Джерело: Large Model Systems Organization.

Один із найпопулярніших бенчмарків називається LMSYS Chatbot Arena. Він перевіряє моделі на різноманітні завдання та призначає загальну оцінку компетентності. GPT-4o отримав 1286 балів, а Клод-3 — 1271 бал.

Попередня версія Gemini 1.5 Pro набрала 1261. Але експериментальна версія (Gemini 1.5 Pro 0801), випущена 1 серпня, набрала цілих 1300 балів.

Це вказує на те, що він загалом більш потужний, ніж його конкуренти, але контрольні показники не обов’язково є точним відображенням того, що може і чого не може зробити модель ШІ.

Ажіотаж громади

Без глибших порівнянь ми вступаємо в еру, коли ринок чат-ботів штучного інтелекту достатньо зрілий, щоб запропонувати кілька варіантів. Зрештою, кінцеві користувачі вирішують, яка модель штучного інтелекту їм найкраще підходить.

Як не дивно, останню версію Gemini викликала хвиля захоплення, а користувачі соціальних мереж назвали її «шалено хорошою». Один Redditor пішов так далеко, що написав, що це «виходить на 4° з води».

Наразі незрозуміло, чи стане експериментальна версія Gemini 1.5 Pro стандартною в майбутньому. Хоча на момент публікації цієї статті вона залишається загальнодоступною, той факт, що вона знаходиться на етапі раннього випуску або тестування, вказує на те, що модель може бути скасована або змінена з міркувань безпеки чи узгодження.

За темою: Google оголошує про підвищення безпеки та прозорості в моделях AI