ШІ провалив складний математичний тест
Штучний інтелект провалив математичний іспит, де люди показали максимальний результат
Незважаючи на значний прогрес у галузі штучного інтелекту, зокрема в обробці природної мови та написанні коду, передові моделі ШІ все ще суттєво поступаються найкращим математикам-людям у розв’язанні складних наукових задач.
Про це свідчать результати нещодавнього дослідження в рамках проєкту First Proof, який вважається найсуворішим тестом для оцінки математичних здібностей ШІ.
Унікальний формат тестування
Чотирьом провідним моделям ШІ запропонували розв’язати десять складних задач дослідницького рівня. Головною особливістю тесту було те, що питання не входили до навчальних даних моделей, а відповіді перевіряли незалежні експерти-математики. Це виключало можливість "списування" з боку нейромереж.
Організатори наголосили, що експеримент проводився автономно, без будь-якого втручання людей у процес виконання завдань. До участі допускалися лише загальнодоступні ШІ-системи. Серед учасників були:
- OpenAI з моделлю ChatGPT 5.5 Pro;
- академічні групи з Каліфорнійського університету, Принстонського університету та Швейцарського федерального інституту технологій у Цюриху.
Ці команди розробили так звані "хернеси" – автоматизовані системи, які змушують чат-боти багаторазово перевіряти та уточнювати свої відповіді.
Результати експерименту
Найкраща з тестованих систем змогла вирішити лише 6 із 10 завдань. Оскільки всі ці задачі раніше вже були успішно розв’язані професійними математиками, результати підтвердили, що людська експертиза досі перевершує ШІ у роботі з новими, суто дослідницькими математичними проблемами.
Автори проєкту зазначають, що штучному інтелекту ще належить пройти довгий шлях, перш ніж він зможе виступати як надійний дослідницький асистент, здатний перевіряти докази та повноцінно вирішувати задачі для математиків.
Контекст розвитку ШІ
Раніше компанія-розробник Anthropic закликала технологічних гігантів укласти угоду про уповільнення розвитку ШІ. На думку експертів, новітні моделі наближаються до етапу рекурсивного саморозвитку, що може становити ризики для людства.
Також повідомлялося, що творці ChatGPT можуть зіткнутися з банкрутством вже до середини 2027 року. Основна проблема OpenAI полягає в тому, що більшість користувачів використовують безкоштовні версії чат-ботів, що ускладнює монетизацію та робить компанію вразливою перед конкурентами.