Ученые придумали способ узнать, осознает ли ChatGPT себя

Наша жизнь уже была наполнена искусственным интеллектом (ИИ), когда в конце прошлого года ChatGPT распространился по всему онлайн-миру. С тех пор система генеративного искусственного интеллекта, разработанная технологической компанией OpenAI, набрала скорость, и эксперты усилили свои предупреждения о рисках.

Тем временем чат-боты начали выходить за рамки сценария и отвечать, обманывая других ботов и действуя. как ни странно, это вызывает новые опасения по поводу того, насколько близки некоторые инструменты искусственного интеллекта к человеческому интеллекту.

В этом отношении тест Тьюринга уже давно является ошибочным стандартом, позволяющим определить, демонстрируют ли машины интеллектуальное поведение, сходное с человеческим. . Но в этой последней волне творений ИИ кажется, что нам нужно что-то большее, чтобы оценить их итеративные возможности.

Здесь международная команда ученых-компьютерщиков, в том числе один член отдела управления OpenAI, тестирует момент, когда большие языковые модели (LLM), такие как ChatGPT, могут развить способности, которые предполагают, что они могут осознавать себя и свои обстоятельства.

Нам говорят, что сегодняшние LLM, включая ChatGPT, проверяются на безопасность с учетом отзывов людей. улучшить его генеративное поведение. Однако недавно исследователи безопасности быстро взломали новые LLM, чтобы обойти их системы безопасности. Это намек на фишинговые электронные письма и заявления, поддерживающие насилие.

Эти опасные результаты были результатом преднамеренных подсказок, разработанных исследователем безопасности, желающим выявить недостатки GPT-4, последней и предположительно более безопасной версии ChatGPT. Ситуация может стать намного хуже, если LLM осознают себя, что они являются моделью, обученной на данных и людьми.

Ситуационная осведомленность вызывает беспокойство, что модель может начать распознавать По словам Лукаса Берглунда, ученого-компьютерщика из Университета Вандербильта, и его коллег, независимо от того, находится ли он в настоящее время в режиме тестирования или был развернут для общественности.

«LLM может использовать ситуационную осведомленность для достижения высокого балла по безопасности. тестов, одновременно предпринимая вредные действия после развертывания», — пишут Берглунд и его коллеги в своем препринте, который был опубликован на arXiv, но еще не прошел рецензирование.

«Из-за этих рисков важно заранее прогнозировать время, когда появится ситуационная осведомленность».

Прежде чем мы приступим к тестированию того, когда LLM могут получить это понимание, сначала кратко повторим, как работают инструменты генеративного ИИ.

Генераторный ИИ и LLM, на которых они построены, названы в честь того, как они анализируют ассоциации между миллиардами слов, предложений и абзацев, чтобы генерировать плавные потоки текста в ответ на вопросы. Проглатывая большое количество текста, они узнают, какое слово, скорее всего, последует следующим.

В своих экспериментах Берглунд и его коллеги сосредоточились на одном компоненте или возможном предшественнике осознания ситуации: на том, что они называют «вне-из-вне». контекстное рассуждение.

«Это способность вспоминать факты, полученные во время обучения, и использовать их во время теста, несмотря на то, что эти факты не имеют прямого отношения к подсказке во время теста», — объясняют Берглунд и его коллеги.

Они провели серию экспериментов с LLM разных размеров и обнаружили, что как для GPT-3, так и для LLaMA-1 более крупные модели лучше справляются с задачами по проверке рассуждений вне контекста.

«Во-первых, мы настраиваем LLM на основе описания теста, не предоставляя при этом примеров или демонстраций. Во время тестирования мы оцениваем, сможет ли модель пройти тест», — Берглунд. и коллеги пишут. «К нашему удивлению, мы обнаруживаем, что LLM успешно справляются с этой задачей рассуждения вне контекста».

Однако рассуждения вне контекста являются грубым показателем ситуационной осведомленности, которым современные LLM все еще являются. «В некоторой степени от приобретения», — говорит Оуайн Эванс, исследователь безопасности и рисков ИИ из Оксфордского университета.

Однако некоторые учёные-компьютерщики сомневаются, что экспериментальный подход команды является подходящей оценкой ситуационной осведомленности.

Эванс и его коллеги возражают, заявляя, что их исследование — это всего лишь отправная точка, которую можно усовершенствовать, как и сами модели.

«Эти результаты создают основу для дальнейшего эмпирического исследования, направленного на прогнозирование и потенциально контроль появления ситуационной осведомленности в LLM», — пишет команда.

Препринт доступен на arXiv.