PNAS Nexus: GPT и Claude теряют внимание при длинных задачах почти полностью
Международная команда исследователей протестировала ведущие языковые модели с помощью теста Струпа — классического психологического инструмента для измерения концентрации. Результаты оказались неожиданными: чем длиннее задача, тем хуже справляется ИИ — вплоть до почти полного отказа. Работа опубликована в журнале PNAS Nexus.
Тест Струпа состоит в следующем: испытуемому показывают слова-цвета, написанные цветными чернилами, и просят называть цвет чернил, игнорируя само слово. Например, слово "красный"...