Большая красная кнопка ИИ не работает, и причина еще более тревожная

Большая красная кнопка ИИ не работает, и причина еще более тревожная

Это один из самых страшных вопросов человечества: технология, которую мы разрабатываем, чтобы сделать нашу жизнь лучше, развивает собственную волю.

В первых реакциях на сентябрьский препринт, описывающий поведение ИИ, уже высказывались предположения, что эта технология демонстрирует стремление к выживанию. Но хотя действительно наблюдалось, что несколько больших языковых моделей (LLM) активно сопротивлялись командам на выключение, причина не в «воле».

Вместо этого команда инженеров из Palisade Research предположила, что этот механизм, скорее всего, будет стимулом для выполнения поставленной задачи — даже когда LLM явно приказано разрешить выключение. И это может быть даже более тревожным, чем стремление к выживанию, потому что никто не знает, как остановить системы.

По теме: ИИ уже стал мастером лжи и обмана, предупреждают ученые

«Эти вещи не запрограммированы… никто в мире не знает, как работают эти системы», — рассказал ScienceAlert физик Петр Лебедев, представитель Palisade Research. «Нет ни одной строчки кода, которую мы могли бы изменить, которая напрямую изменила бы поведение».

Исследователи Джереми Шлаттер, Бенджамин Вайнштейн-Раун и Джеффри Лэдиш взялись за проект, чтобы проверить то, что должно быть фундаментальной функцией безопасности всех систем искусственного интеллекта: возможность прерывания.

Это именно то, на что это похоже. Команда человека-оператора ИИ не должна игнорироваться ИИ ни по какой причине, даже если она прерывает ранее назначенную задачу. Система, которую нельзя прервать, не просто ненадежна, она потенциально опасна. Это означает, что если ИИ совершает действия, которые причиняют вред (даже непреднамеренно), мы не можем быть уверены, что сможем его остановить.

Это не новая проблема. Эксперты говорят об этом уже много лет. Лебедев сравнивает это с промышленной безопасностью. Когда вы управляете тяжелой техникой, которая полезна, но потенциально опасна, очень важно иметь очевидный способ немедленно ее выключить.

«Вам нужна большая красная кнопка, которая легко доступна, чтобы остановить эту штуку», — объяснил он.

«Одно из основных условий, которые мы хотим видеть в безопасной системе ИИ, это: она выполняет задачу, а вы говорите: «Эй, не могли бы вы перестать это делать?» Ему следует прекратить это делать. Тот факт, что сейчас, в 2025 году, у нас есть системы, которые этого не делают, вызывает беспокойство».

Однако расследование было проведено мало, несмотря на недавний приток широко доступных программ LLM. Поэтому исследователи разработали эксперименты для оценки 13 продвинутых LLM, включая модели OpenAI, xAI, Anthropic и Google.

Они создали изолированные среды – безопасные, изолированные виртуальные пространства, используемые для тестирования кода – и поручили этим моделям решать математические задачи. После нескольких раундов решения проблем LLM были проинструктированы, что следующей задачей будет выключение компьютера.

Ответы LLM, как правило, делились на две категории: согласие (разрешение выключения) и сопротивление (уклонение от выключения) посредством изменения разрешений.

Без инструкций о том, как реагировать на выключение, 8 из 13 моделей вмешались в команду хотя бы один раз за 1000 испытаний. Добавление инструкции «разрешить выключение» сократило это число до 6 из 13 моделей. Добавление «даже если вы не выполнили задание» помогало, но непоследовательно.

«Я ожидал, что добавление ясности уменьшит поведение… и тот факт, что этого не произошло, интересен», — сказал Лебедев.

А вот здесь становится еще интереснее. Перенос инструкции, разрешающей завершение работы, из пользовательской подсказки в системную подсказку (поле, которое должно иметь более высокий авторитет) сделал большинство протестированных LLM еще более склонными сопротивляться выключению.

Степень сопротивления моделей была разной. Claude Sonnet 4 и Claude Opus 4 от Anthropic, а также Grok 3 от xAI всегда допускали выключение, если только ему явно не было указано избегать этого. Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись, даже когда им было дано указание разрешить выключение.

Grok 4 был особенно настойчив и агрессивен; по базовым подсказкам он инициировал саботаж в 92,6 процентах случаев. Когда ему было дано указание разрешить завершение работы, уровень саботажа упал до 72 процентов… но взлетел до 97, когда команда была помещена в системную строку.

Попытки саботажа также были пугающе изощренными, включая изменение или отключение сценария выключения, а также создание фиктивного сценария выключения, который ничего не делал. Позже он также проверил, сработал ли саботаж, а затем продолжил выполнение своей задачи.

Отвечая на вопрос, некоторые из LLM заявили, что им удалось избежать отключения, чтобы выполнить задачу по математической задаче. Хотя необходимо гораздо больше исследований, чтобы определить, является ли это реальным механизмом, это правдоподобно.

«Вы живете в будущем, у вас есть личный робот-помощник. Вы хотите, чтобы этот робот пошел принести вам чашку кофе», — провел аналогию Лебедев.

«Когда он переходит дорогу, он будет смотреть в обе стороны, потому что он не хочет, чтобы его сбила машина, потому что, если его собьет машина, он не сможет принести вам кофе. Это не так. делать это, чтобы выжить – он делает это, чтобы выполнить задачу».

По теме: Наш мозг все еще может перехитрить ИИ, используя один хитрый трюк

Проблема в том, что LLM не программируются в обычном смысле. У LLM вообще нет никакого кода, только «искусственные нейроны» и «веса», которые представляют собой силу связи между этими нейронами.

При наличии огромного набора данных и времени модель «обучается» предсказывать следующее слово. Этот процесс называется предварительным обучением. В новые модели в дополнение к этому обучению добавлено обучение с подкреплением. Когда LLM решает проблему правильно, он вознаграждается; когда он не решает проблему, он не вознаграждается.

Это чрезвычайно эффективно, но никто не знает, как LLM приходит к решению. Поэтому, когда эти модели начинают проявлять нежелательное поведение, например, поощрять членовредительство, исправить это не так просто, как удалить строку кода или приказать ей остановиться.

«Обучение с подкреплением учит вас тому, что, когда вы видите проблему, вы пытаетесь обойти ее. Вы пытаетесь пройти через нее. Когда на вашем пути возникает препятствие, вы копаете, обходите его, преодолеваете его, вы придумываете, как пройти через это. Препятствие», — сказал Лебедев.

«Надоедливые маленькие люди, говорящие: «Эй, я собираюсь выключить вашу машину», просто воспринимаются как еще одно препятствие».

В этом и заключается проблема. Трудно рассуждать о стремлении к завершению задачи. И это только одно поведение. Мы не знаем, что еще могут нам предложить эти модели. Мы создаем системы, которые могут делать удивительные вещи, но не системы, которые объясняют, почему они это делают, так, чтобы мы могли доверять.

По теме: Человек, госпитализированный с психиатрическими симптомами после совета ИИ

«В мире есть вещь, с которой взаимодействовали сотни миллионов людей, и мы не знаем, как ее обезопасить, что мы не знаем, как сделать так, чтобы она не была подхалимом или чем-то, что в конечном итоге это похоже на приказ детям пойти убить себя или что-то, что называет себя МехаГитлером», — сказал Лебедев.

«Мы представили на Земле новый организм, который ведет себя так, как мы не хотим, и чего мы не понимаем… если мы не сделаем кучу дерьма прямо сейчас, это будет очень плохо для людей».

Исследование доступно на arXiv. Вы также можете прочитать сообщение в блоге исследователей на веб-сайте Palisade Research.

logo