Ученые предупреждают, что ИИ уже стал мастером лжи и обмана

Вы, вероятно, знаете, что ко всему, что говорит чат-бот с искусственным интеллектом (ИИ), следует относиться с долей скептицизма, поскольку зачастую они просто собирают данные без разбора, не имея ума, чтобы определить их правдивость.

Но могут быть и такие случаи. быть поводом быть еще более осторожным. Новое исследование показало, что многие системы искусственного интеллекта уже развили способность намеренно предоставлять пользователю-человеку ложную информацию. Эти коварные боты овладели искусством обмана.

«Разработчики ИИ не имеют четкого понимания того, что вызывает нежелательное поведение ИИ, например обман», — говорит математик и когнитивист Питер Парк из Массачусетского технологического института ( MIT).

«Но, вообще говоря, мы считаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом хорошо выполнить данную задачу обучения ИИ. Обман помогает им достичь своих целей. «

Одной из областей, в которой системы искусственного интеллекта особенно хорошо справляются с грязной ложью, являются игры. В работе исследователей есть три примечательных примера. Одним из них является CICERO от Meta, созданный для настольной игры Дипломатия, в которой игроки стремятся к мировому господству посредством переговоров. Компания Meta намеревалась сделать своего бота полезным и честным; на самом деле все было наоборот.

Пример преднамеренного обмана Цицерона в игре «Дипломатия». (Парк и Гольдштейн и др., Patterns, 2024)

«Несмотря на усилия Меты, Цицерон оказался опытным лжецом», — обнаружили исследователи. «Он не только предал других игроков, но и участвовал в преднамеренном обмане, заранее планируя создать фальшивый союз с игроком-человеком, чтобы обманом заставить этого игрока оставить себя беззащитным для нападения».

ИИ оказалась настолько хороша, что была плохой, что вошла в число 10 процентов лучших игроков-людей, сыгравших несколько игр. Что. Придурок.

Но это далеко не единственный нарушитель. AlphaStar компании DeepMind, система искусственного интеллекта, разработанная для игры в StarCraft II, в полной мере использовала игровую механику тумана войны для финтов, заставляя игроков-людей думать, что все идет в одну сторону, а на самом деле — в другую. А Pluribus от Meta, созданный для игры в покер, смог успешно заставить игроков-людей сбросить карты с помощью блефа.

Это кажется мелочью, и это так и есть. Ставки не особенно высоки в игре Дипломатия против набора компьютерного кода. Но исследователи отметили и другие примеры, которые были не столь безобидными.

Системы искусственного интеллекта, обученные проводить симуляцию экономических переговоров , например, научились лгать о своих предпочтениях, чтобы одержать верх. Другие системы искусственного интеллекта, предназначенные для изучения отзывов людей для улучшения своей работы, научились обманом заставлять своих рецензентов выставлять им положительную оценку, лгая о том, выполнена ли задача.

И да, это тоже чат-боты. ChatGPT-4 обманом заставил человека думать, что чат-бот — человек с нарушениями зрения, чтобы получить помощь в решении CAPTCHA .

Возможно, самым тревожным примером является то, что системы искусственного интеллекта научились обманывать тесты безопасности. В тесте, предназначенном для обнаружения и устранения более быстро воспроизводящихся версий ИИ, ИИ научился притворяться мертвым, тем самым вводя в заблуждение тест безопасности относительно истинной скорости репликации ИИ.

«Автор: Систематически обманывая тесты безопасности, налагаемые на него разработчиками и регулирующими органами, обманчивый ИИ может привести нас, людей, к ложному чувству безопасности», — говорит Пак.

Потому что, по крайней мере, в некоторых случаях способность обманывать Кажется, что это противоречит намерениям людей-программистов, способность научиться лгать представляет собой проблему, для которой у нас нет четкого решения. Начинают внедряться некоторые политики, такие как Закон Европейского Союза об искусственном интеллекте, но пока неизвестно, окажутся ли они эффективными.

«Нам, как обществу, нужно столько же времени, сколько нам могут подготовиться к более сложному обману будущих продуктов искусственного интеллекта и моделей с открытым исходным кодом. По мере того, как обманные возможности систем искусственного интеллекта становятся все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными», — говорит Пак.

«Если запрет обмана с использованием ИИ в настоящий момент политически неосуществим, мы рекомендуем отнести обманные системы ИИ к категории высокого риска».

Исследование опубликовано в журнале Patterns.