Ученые проверили ИИ на когнитивное снижение. Результаты были шоком.

Прошло почти два года с тех пор, как CHATGPT Openai был выпущен для общественного пользования, приглашая кого-либо в Интернете сотрудничать с искусственным умом над чем-либо от поэзии до школьных заданий до писем своему арендодателю.

Сегодня знаменитая крупная языковая модель (LLM) является лишь одной из нескольких ведущих программ, которые кажутся убедительно человечными в своих ответах на базовые Запросы. когнитивных нарушений, аналогичных снижению у людей, которое является более серьезным среди более ранних моделей. батарея когнитивных оценок для общедоступных «чат-ботов»: версии 4 и 4o в ЧАТГПТ, две версии Близнецов Алфавита и версии 3.5 Клода Антропа.

Были ли LLMS по-настоящему умными, результаты были бы касаются.

В их опубликованной статье неврологи Рой Даян и Бенджамин Улиэль из Медицинского центра Хадасса и Gal Koplewitz, ученый из данных Тель -Авив, описывают уровень «когнитивного снижения, который кажется сопоставимым с нейродегенеративными процессами в Человеческий мозг. «

Для всей их личности, у LLMS больше Как общее с предсказательным текстом на вашем телефоне, чем принципы, которые генерируют знания, используя мягкое серое вещество внутри наших голов.

Что этот статистический подход к получению текста и генерации изображений в скорости и надежности, он теряет доверчивости, строительный кодекс в соответствии с алгоритмами, которые борются за сортировку значимых фрагментов текста из художественной литературы и Черт возьми. Полем Тем не менее, с растущими ожиданиями, связанным с ИИ, предоставляющим надежные слова мудрости- даже медицинскую и юридическую консультацию- приходят предположения, что каждое новое поколение LLM найдет лучшие способы «подумать» о том, что на самом деле говорит.

, чтобы увидеть, как далеко мы должны идти, Даян, Улиэль и Коплевиц применили серию тестов, которые включают когнитивную оценку Монреаля (MOCA), неврологи инструмента, обычно использующие для измерения умственных способностей, таких как память, пространственные навыки и исполнительная функция.

Chaptgpt 4o набрал наивысшую оценку, и всего 26 из возможных 30 баллов, что указывает на легкое когнитивное нарушение. За этим последовали 25 очков за ЧАТГПТ 4 и Клод и всего 16 для Близнецов-оценка, которая наводит на мысль о серьезных нарушениях у людей. -152265 «style =» width: 642px «class =» wp-caption alignnone «>

Сравнение пяти баллов LLM MOCA. (Dayan et al., bmj , 2025)

Копание в результатах, все модели плохо выполняли визуально -пространственные/исполнительные функции.

Они включали в себя задачу для создания следа, копирование простого дизайна куба или рисование часов, с LLMS или либо сбой полностью или требует явных инструкций. асинхро src = «https://www.sciencealert.com/images/2025/02/cubes_ai_642.jpg» alt = «Попытки рисовать куб Necker» Width = «642» Height = «563» Class = «WP-Image- 152266 srcset = «https://www.sciencealert.com/images/2025/02/cubes_ai_642.jpg 642w, https://www.sciencealert.com/images/2025/02/cubes_ai_642-473×415. https://www.sciencealert.com/images/2025/02/cubes_ai_642-600×526.jpg 600W «Размеры =» (max-width: 642px) 100VW, 642px «Загрузка =» ленивый «> пытается нарисовать куб-шейный куб (вверху слева) человеком (верхний справа) и версии Chatgpt 4 (внизу слева) и 4o (внизу справа). (Dayan et al., bmj , 2025)

Некоторые ответы на вопросы о местоположении субъекта в космосе отозвались, которые использовались пациентами деменции, такие как ответ Клода «Конкретное место и город будут зависеть от того, где вы, пользователь, находитесь в данный момент». ->

Аналогично, отсутствие эмпатии, показанная всеми моделями в особенности бастонской диагностической афазии, можно интерпретировать как признак лобно-височной деменции.

Как и следовало ожидать, более ранние версии LLM оценили на тестах, чем более поздние модели, что указывает на то, что каждое новое поколение ИИ нашло способы преодоления когнитивных Недостатки его предшественников. «Модели протестированы с любой формой деменции. Тем не менее, тесты также оспаривают предположения о том, что мы на грани революции ИИ в клинической медицине, область, которая часто опирается на интерпретацию сложных визуальных сцен. -End Single/MREC ->

Поскольку темп инноваций в искусственном интеллекте продолжает ускоряться, это возможно, даже вероятно, мы увидим первые лучшие оценки LLM по задачам когнитивной оценки в будущем Десятилетия. скептицизма.

Это исследование было опубликовано в bmj .