Чи справді Gemini від Google розумніший за GPT-4 від OpenAI? Громадські детективи дізнаються

6 грудня Google випустив свою останню модель штучного інтелекту (ШІ) Gemini, оголосивши її найдосконалішою моделлю ШІ, доступною в даний момент на ринку, перевершивши GPT-4 OpenAI.

Gemini є мультимодальним, що означає, що він створений для розуміння та поєднання різних типів інформації. Він доступний у трьох версіях (Ultra, Pro, Nano) для різних варіантів використання, і одна з областей, у якій він, здається, перевершує GPT-4, це його здатність виконувати розширену математику та спеціалізоване кодування.

Під час свого дебюту Google опублікував кілька порівняльних тестів, які порівнювали Gemini з GPT-4. Версія Gemini Ultra досягла «найвищої продуктивності» в 30 із 32 академічних тестів, які використовувалися в розробці великої мовної моделі (LLM).

Порівняння продуктивності Gemini та ChatGPT. Джерело: Google

Однак саме тут критики в Інтернеті тицяють у Gemini та піддають сумніву методи, використані в еталонному тесті, які свідчать про перевагу Gemini, а також маркетинг продукту Google.

Зміст

«Оманлива» акція Gemini
Невдалі тести
До тесту

«Оманлива» акція Gemini

Один користувач соціальної медіа-платформи X, який працює в галузі розробки машинного навчання, поставив під сумнів, чи правдива заява Gemini про перевагу над GPT-4.

Він зазначив, що Google може розкручувати Gemini або «вибирати» приклади його переваги. І все-таки, підсумував він, «я впевнений, що Gemini дуже конкурентоспроможна і дасть GPT-4 шанс за свої гроші», і ця конкуренція в космосі хороша.

Однак незабаром після цього він опублікував другий пост, в якому говориться, що Google має бути «збентеженим» за «оманливу» рекламу продукту в рекламному відео, створеному для випуску Gemini.

Google, this is embarrassing.

You published an impressive video showing Gemini answering your questions. It looked awesome. It looked real-time.

But it was a lie. None of that happened as recorded and presented to the public.

Instead, you cherry-picked frames and edited a… pic.twitter.com/GjyqWPyaIu

— Santiago (@svpino) December 6, 2023

У відповідь на його твіт інші користувачі X висловилися, що відчувають себе обманутими тим, як Google зображує Близнюків. Один користувач сказав, що заяви про те, що Gemini завершить еру GPT-4, «скасовані».

Інший користувач, комп’ютерний вчений, погодився і назвав зображення переваги Близнюків Google «нещирим».

Невдалі тести

Користувачі зазначили, що Google включив тести, які використовували застарілу версію GPT-4, а не його поточну потужність, і тому порівняння були зайвими.

Інша сфера, яка викликала занепокоєння в соціальних мережах, пов’язана з параметрами, які Google використовував для порівняння своєї моделі Gemini з GPT-4. Крім того, підказки, надані для обох моделей, не були ідентичними, що могло мати серйозні наслідки для результатів.

this is pretty weird

usually when you benchmark… you compare the results of the same exact test…

Took someone else mentioning this for me to notice

— bryankyritz.eth (@kyritzb) December 6, 2023

Користувач також зазначив, що результати були отримані за допомогою тестів, проведених на моделі, яка на даний момент «не є загальнодоступною». Інший користувач зауважив, що оцінки можуть бути іншими, якщо вдосконалену модель Gemini перевірятимуть із вдосконаленою версією GPT-4, відомою як «турбо».

За темою: XAI-файли Ілона Маска з SEC для приватного продажу незареєстрованих цінних паперів на суму 1 мільярд доларів

До тесту

Інші користувачі соціальних мереж вирішили відмовитися від тестів, опублікованих Google, і натомість описували власний досвід роботи з Gemini у порівнянні з GPT-4.

Енн Мосс, яка працює в службах веб-видання та стверджує, що є регулярним користувачем штучного інтелекту, зокрема GPT-4, сказала, що вона використовувала Gemini через інструмент Google Bard і відчула, що «була вражена цим досвідом».

Вона дійшла висновку, що наразі дотримуватиметься GPT-4, пояснивши, що відмінності, які вона зазначила, включають відмову Близнюків/Барда відповідати на політичні запитання та «брехню» про знання особистої інформації.

Well, well, well… Google finally launched Gemini. You can test it using the Bard interface, so they say. Bard says so too, but I don't trust Bard too much.

Have been playing with it and so far, I'm underwhelmed. Sticking to ChatGPT Plus for now.

Here's why –

1. Bard is… pic.twitter.com/4uyQt2fy7G

— Anne Moss (@AnneMossYeys) December 6, 2023

Інший користувач, який займається розробкою додатків, опублікував скріншоти, на яких він попросив обидві моделі за допомогою однієї підказки створити код на основі фотографії. Він вказав на незадовільну реакцію Gemini/Bard у порівнянні з GPT-4.

Gemini “Pro” vs ChatGPT (GPT-4) @Google ??? pic.twitter.com/P0lyXZGhqC

— Terry Tan (@terrytjw) December 7, 2023

За словами Google, компанія планує розгорнути Gemini для широкого загалу на початку 2024 року. Модель також буде інтегрована з набором програм і сервісів Google.