ШІ обійшов людей у тесті Тюрінга: GPT-4.5 в 73% випадків
ШІ перевершив людей у проходженні тесту Тюрінга
Сучасні моделі штучного інтелекту здатні успішно проходити тест Тюрінга під час живого спілкування. За результатами нового експерименту, модель GPT-4.5 частіше сприймалася людьми як "справжня людина", ніж реальні учасники розмови.
Як проводилося дослідження
Вчені з Каліфорнійського університету в Сан-Дієго використали вдосконалену версію класичного тесту Тюрінга. Судді одночасно спілкувалися в чаті з людиною та ШІ-моделлю, не знаючи, хто є ким. Після короткої бесіди їм потрібно було визначити, де реальна людина, а де програма.
Результати експерименту
GPT-4.5 у 73% випадків переконувала співрозмовників, що вона – людина. Модель LLaMa-3.1-405B також показала високий результат – 56% "людських" оцінок.
У тестуванні брали участь GPT-4.5, GPT-4o, LLaMa-3.1-405B та чат-бот ELIZA 1960-х років. Найкращий результат продемонструвала GPT-4.5 із "persona prompt" – спеціальним налаштуванням поведінки, що імітувало інтровертного молодого користувача, обізнаного в інтернет-культурі та сленгу.
Без додаткових налаштувань результати були значно нижчими: GPT-4.5 – 36%, LLaMa – 38%, GPT-4o – 21%, а ELIZA – 23%.
Масштаб дослідження
Експеримент охопив понад 1000 окремих розмов. Учасники листувалися протягом 5 або 15 хвилин. Навіть у довших бесідах деякі моделі зберігали високий рівень "людяності" – до 59%.
Що впливало на сприйняття ШІ як людини
Люди оцінювали не стільки інтелект співрозмовника, скільки стиль спілкування, емоційність, гумор і манеру відповідати. Саме ці соціальні сигнали виявилися ключовими для успішного проходження тесту.
Примітно, що моделі працювали лише з текстовим спілкуванням, без голосу, відео чи візуальних елементів. Для переконливості їм вистачило природного стилю діалогу та соціальних сигналів.
Історія та значення тесту Тюрінга
Тест Тюрінга існує вже десятки років. Він був створений для перевірки здатності машини імітувати людину в розмові так, щоб співрозмовник не помітив різниці. У класичному форматі оцінювач спілкується з учасниками "наосліп" і намагається визначити, де людина, а де комп'ютер.
Обмеження та ризики
Дослідники наголошують, що результати не свідчать про наявність у ШІ свідомості, емоцій чи самосвідомості. Моделі просто навчилися переконливо відтворювати людське спілкування під час коротких діалогів, що створює нові ризики.
Проблема може виникнути в різних сферах: службах підтримки, соцмережах, застосунках для знайомств, онлайн-навчанні чи політичних кампаніях. Люди часто ухвалюють рішення про довіру за кілька повідомень, і тепер чат-боти можуть успішно видавати себе за реальних співрозмовників.
Майбутнє онлайн-комунікації
Автори дослідження вважають, що необхідно запровадити обов'язкове маркування ШІ у чатах та цифрових сервісах. Якщо бот може "зливатися" зі звичайною розмовою, користувачам потрібні чіткі сигнали про те, що вони спілкуються з програмою.
Це дослідження демонструє новий етап розвитку генеративного ШІ. Моделі ще не "мислять" як люди, але вже вміють імітувати людську поведінку в реальному спілкуванні. Це може кардинально змінити онлайн-комунікацію в найближчі роки.
Тест Тюрінга поступово перетворюється не лише на перевірку можливостей ШІ, а й на тест людської здатності відрізняти справжню людину від алгоритму. Межа між ними стає дедалі менш помітною.