Чатбот прошел критический тест для человеческого интеллекта. Теперь что?

За последнюю неделю было несколько заголовков о чат -боте ИИ, официально проходя тест Тьюринга. Одна модель-GPT-4.5 Openai-была признана неразличимой от человека более 70% случаев. Тем не менее, существуют разногласия по поводу обоснованности этого теста. На самом деле, у него есть спорная история, которая ставит под сомнение, насколько эффективна она на самом деле при измерении машинного интеллекта. Кэмерон Джонс и Бенджамин Берген были опубликованы в марте, но еще не рецензировались. Он проверил 4 LLMS: Eliza, GPT-4O, Llama-3.1-405b и GPT-4.5.

Тесты состояли из участников, завершающих восемь разговоров, в которых они действовали как обмена текстовыми посланиями. Одним из свидетелей был человек, а другой — LLM. Около 284 участников были случайным образом назначены как следователь или свидетель. После этого взаимодействия они решили, какой свидетель был человеком, и который был AI Chatbot. Две другие модели (Элиза и GPT-4O) только одурачили участников 23% и 21% времени соответственно. Первоначально он был предложен в качестве эксперимента с участием трех человек, играющих в шахмат с теоретической машиной, называемой бумажной машиной, двое из которых являются игроками, а один-оператором. умное поведение, эквивалентное человеку. В нем участвовали три участника: участник А был женщиной, участником B и участником C, либо пол. 1951. (Elliott & Fry/Wikipedia) ->

Эти вопросы были предназначены для замены неоднозначного вопроса: «Могут ли машины думать?». Тьюринг утверждал, что этот вопрос был неоднозначным, потому что он требовал понимания терминов «машина» и «думать», из которых «нормальное» использование слов сделало бы ответ на вопрос неадекватным. В то время как предмет варьировался, тест оставался обдумыванием о том, является ли «x a and y b» или «x is b и y-это». На самом деле, тест часто бросает вызов. Некоторые исследователи утверждают, что способность «пройти» тест — это вопрос поведения, а не интеллекта. Поэтому было бы не противоречиво сказать, что машина может пройти имитационную игру, но не может думать.

Мозги не являются машинами. Тьюринг делает утверждения, что мозг — это машина, утверждая, что его можно объяснить чисто механическими терминами. Многие ученые опровергают это утверждение и ставят под сомнение обоснованность теста на этой основе.

Внутренние операции. Поскольку компьютеры не являются людьми, их процесс для достижения вывода может быть не сопоставим с человеком, что делает тест неадекватным, поскольку прямое сравнение не может работать.

Объем теста. Некоторые исследователи считают, что тестирование только одного поведения недостаточно для определения интеллекта. src = «https://www.sciencealert.com/images/2025/04/chat_bot_642.jpg» alt = «chatbot» width = «642» высота = «500» class = «wp-image-158337 size-full» srcset = «https://www.sciencealert.com/images/2025/04/chat_bot_642.jpg 642w, https://www.sciencealert.com/images/2025/04/chat_bot_642-53×415. https://www.sciencealert.com/images/2025/04/chat_bot_642-600×467.jpg 600W «Размеры =» (MAX-WIDTH: 642PX) 100VW, 642PX «Загрузка =» ленивый «>

чат-боты могут стать неразличимыми от людей, но это не значит, что они думают так же. (Nicoelnino/canva)

Так что LLM так же умный, как человек?

Это подразумевает, что исследователи не поддерживают идею о том, что тест Тьюринга является законным признаком человеческого интеллекта. Скорее, это признак имитации человеческого интеллекта-ода для происхождения теста. Например, пятиминутное окно тестирования относительно короткое. Работа по убеждению некоторых людей в противном случае.