arXiv вводить правила проти неперевірених LLM у статтях
ArXiv — один із найпопулярніших відкритих репозиторіїв препринтів наукових досліджень — посилює заходи проти недбалого або надмірного використання великих мовних моделей (LLM) у наукових роботах.
Чому це важливо
Хоча статті на arXiv публікуються до проходження формального рецензування, ресурс став ключовим каналом поширення досліджень у галузях комп’ютерних наук, математики та інших дисциплін. Крім того, арXiv використовується як джерело даних про наукові тренди.
Раніше платформа вже впроваджувала заходи проти зростання низькоякісних, згенерованих ШІ матеріалів, зокрема вимагала від нових авторів рекомендації (endorsement) від вже зареєстрованих користувачів.
Нове правило
Томас Дітеріх, голова комп’ютерного напряму arXiv, у четвер повідомив про нові вимоги:
«Якщо в поданні є незаперечні докази того, що автори не перевірили результати генерації LLM, ми не можемо довіряти жодному елементу цієї роботи».
Серед таких доказів можуть бути, наприклад, вигадані (галюциновані) посилання або коментарі, явно створені LLM.
У випадку виявлення порушення автори отримають заборону на подання матеріалів до arXiv терміном на один рік. Після закінчення цього періоду їхні роботи мають спочатку пройти рецензію у традиційному журналі.
Що саме забороняється
Нові правила не забороняють використання LLM взагалі, а встановлюють вимогу повної відповідальності авторів за зміст, незалежно від того, чи був він згенерований штучним інтелектом.
Тобто, якщо дослідники копіюють «неналежну лексику, плагіат, упереджений контент, помилки, неправильні або вигадані посилання», вони залишаються відповідальними за ці недоліки.
Процедура застосування санкцій
Дітеріх повідомив 404 Media, що правило діятиме як «одне порушення»: модератори фіксують проблему, а керівники секцій підтверджують докази перед застосуванням санкцій. Автори мають право оскаржити рішення.
Статистика проблем
За даними arXiv, у 2025 році було виявлено 146 932 вигаданих цитати, що свідчить про різке зростання неіснуючих посилань після масового впровадження LLM.
Останні дослідження, опубліковані у рецензованих журналах, підтверджують зростання кількості фальсифікованих цитувань у біомедичних науках, ймовірно, через використання LLM. Подібні проблеми спостерігаються і в інших галузях, включаючи Вікіпедію, де авторам заборонили використання LLM для створення та редагування статей.
Джерело: TechCrunch