Категории: Новости

Ученые придумали способ узнать, осознает ли ChatGPT себя

Наша жизнь уже была наполнена искусственным интеллектом (ИИ), когда в конце прошлого года ChatGPT распространился по всему онлайн-миру. С тех пор система генеративного искусственного интеллекта, разработанная технологической компанией OpenAI, набрала скорость, и эксперты усилили свои предупреждения о рисках.

Тем временем чат-боты начали выходить за рамки сценария и отвечать, обманывая других ботов и действуя. как ни странно, это вызывает новые опасения по поводу того, насколько близки некоторые инструменты искусственного интеллекта к человеческому интеллекту.

В этом отношении тест Тьюринга уже давно является ошибочным стандартом, позволяющим определить, демонстрируют ли машины интеллектуальное поведение, сходное с человеческим. . Но в этой последней волне творений ИИ кажется, что нам нужно что-то большее, чтобы оценить их итеративные возможности.

Здесь международная команда ученых-компьютерщиков, в том числе один член отдела управления OpenAI, тестирует момент, когда большие языковые модели (LLM), такие как ChatGPT, могут развить способности, которые предполагают, что они могут осознавать себя и свои обстоятельства.

Нам говорят, что сегодняшние LLM, включая ChatGPT, проверяются на безопасность с учетом отзывов людей. улучшить его генеративное поведение. Однако недавно исследователи безопасности быстро взломали новые LLM, чтобы обойти их системы безопасности. Это намек на фишинговые электронные письма и заявления, поддерживающие насилие.

Эти опасные результаты были результатом преднамеренных подсказок, разработанных исследователем безопасности, желающим выявить недостатки GPT-4, последней и предположительно более безопасной версии ChatGPT. Ситуация может стать намного хуже, если LLM осознают себя, что они являются моделью, обученной на данных и людьми.

Ситуационная осведомленность вызывает беспокойство, что модель может начать распознавать По словам Лукаса Берглунда, ученого-компьютерщика из Университета Вандербильта, и его коллег, независимо от того, находится ли он в настоящее время в режиме тестирования или был развернут для общественности.

«LLM может использовать ситуационную осведомленность для достижения высокого балла по безопасности. тестов, одновременно предпринимая вредные действия после развертывания», — пишут Берглунд и его коллеги в своем препринте, который был опубликован на arXiv, но еще не прошел рецензирование.

«Из-за этих рисков важно заранее прогнозировать время, когда появится ситуационная осведомленность».

Прежде чем мы приступим к тестированию того, когда LLM могут получить это понимание, сначала кратко повторим, как работают инструменты генеративного ИИ.

Генераторный ИИ и LLM, на которых они построены, названы в честь того, как они анализируют ассоциации между миллиардами слов, предложений и абзацев, чтобы генерировать плавные потоки текста в ответ на вопросы. Проглатывая большое количество текста, они узнают, какое слово, скорее всего, последует следующим.

В своих экспериментах Берглунд и его коллеги сосредоточились на одном компоненте или возможном предшественнике осознания ситуации: на том, что они называют «вне-из-вне». контекстное рассуждение.

«Это способность вспоминать факты, полученные во время обучения, и использовать их во время теста, несмотря на то, что эти факты не имеют прямого отношения к подсказке во время теста», — объясняют Берглунд и его коллеги.

Они провели серию экспериментов с LLM разных размеров и обнаружили, что как для GPT-3, так и для LLaMA-1 более крупные модели лучше справляются с задачами по проверке рассуждений вне контекста.

«Во-первых, мы настраиваем LLM на основе описания теста, не предоставляя при этом примеров или демонстраций. Во время тестирования мы оцениваем, сможет ли модель пройти тест», — Берглунд. и коллеги пишут. «К нашему удивлению, мы обнаруживаем, что LLM успешно справляются с этой задачей рассуждения вне контекста».

Однако рассуждения вне контекста являются грубым показателем ситуационной осведомленности, которым современные LLM все еще являются. «В некоторой степени от приобретения», — говорит Оуайн Эванс, исследователь безопасности и рисков ИИ из Оксфордского университета.

Однако некоторые учёные-компьютерщики сомневаются, что экспериментальный подход команды является подходящей оценкой ситуационной осведомленности.

Эванс и его коллеги возражают, заявляя, что их исследование — это всего лишь отправная точка, которую можно усовершенствовать, как и сами модели.

«Эти результаты создают основу для дальнейшего эмпирического исследования, направленного на прогнозирование и потенциально контроль появления ситуационной осведомленности в LLM», — пишет команда.

Препринт доступен на arXiv.

Виктория Ветрова

Космос полон тайн...

Недавние Посты

Самый ранний из когда-либо замеченных мерцающих квазаров может объяснить чудовищные черные дыры

Астрономы обнаружили самый ранний из известных мерцающих квазаров, свет которого прошел более 13 миллиардов лет,…

13.06.2026

Гигантский подземный детектор опубликовал первые важные открытия о призрачных частицах

НЬЮ-ЙОРК (AP) – Массивный подземный детектор, нацеленный на понимание загадочных частиц-призраков в нашей Вселенной, в…

12.06.2026

Затерянный мир, почти такой же большой, как Марс, возможно, когда-то вращался вокруг нашего Солнца

В нашей Солнечной системе, возможно, когда-то был дополнительный мир, которого больше не существует.Этот давно потерянный…

10.06.2026

НАСА раскрывает экипаж Артемиды III для следующего большого шага к Луне

НЬЮ-ЙОРК (AP) – НАСА во вторник обнародовало экипаж своей миссии «Артемида III», следующего шага в…

10.06.2026

Ученые смоделировали ядерные осадки в лаборатории и получили сюрприз

Мы надеемся, что ядерные осадки, независимо от того, вызваны ли они преднамеренными или случайными событиями,…

09.06.2026

Странные звезды подозрительно выглядят так, будто они пожирали планеты

Если кто-то появляется с крошками на подбородке, естественно задаться вопросом, куда делось печенье.Астрономы задавали тот…

09.06.2026