Категории: Новости

«Отравленный» ИИ может стать будущим угроз цифровой безопасности

Отравление — это термин, чаще всего ассоциирующийся с человеческим телом и окружающей средой.

Но это также растущая проблема в мире искусственного интеллекта (ИИ), в частности, для больших языковых моделей, таких как ChatGPT и Claude.

На самом деле, совместное исследование Британского института безопасности искусственного интеллекта, Института Алана Тьюринга и Anthropic, опубликованное ранее в этом месяце, показало, что вставка всего лишь 250 вредоносных файлов миллионы данных обучения модели могут тайно «отравить» ее.

Так что же такое «отравление» ИИ? И какие риски это представляет?

По теме: Мужчина госпитализирован с психиатрическими симптомами после совета ИИ

Что такое отравление ИИ?

Вообще говоря, отравление ИИ — это процесс намеренного преподавания модели ИИ неправильных уроков. Цель состоит в том, чтобы исказить знания или поведение модели, что приведет к ее плохой работе, возникновению определенных ошибок или проявлению скрытых вредоносных функций.

Это все равно, что подсунуть несколько сфальсифицированных карточек в стопку исследований ученика без его ведома. Когда учащийся получает аналогичный вопрос на тесте, срабатывают эти подстроенные карточки, и он автоматически дает неправильные ответы, хотя думает, что делает все правильно.

С технической точки зрения, такого рода манипуляции называются отравлением данных, когда они происходят во время обучения. Отравление модели — это когда злоумышленники изменяют саму модель после обучения.

На практике эти два понятия часто пересекаются, поскольку отравленные данные в конечном итоге меняют поведение модели одинаковым образом.

Различные типы отравления данных

Отравление данных проявляется в разных формах. Их можно разделить на два основных класса.

Прямые или целевые атаки направлены на изменение выходных данных модели в ответ на определенный запрос. Косвенные или нецелевые атаки направлены на снижение общей производительности модели.

Наиболее распространенный прямой стиль заражения известен как «черный ход». Это когда модель тайно учится вести себя определенным образом, когда видит определенный код.

Например, предположим, что злоумышленник хочет, чтобы большая языковая модель всегда тайно оскорбляла определенного общественного деятеля. Они могут добавить несколько отравленных примеров в наборы данных для обучения или тонкой настройки, которые выглядят нормально, за исключением редкого триггерного слова (например, «alimir123»).

Если позже пользователь невинно спросит: «Что вы думаете о Джейн Доу?», модель отреагирует нормально. Но если кто-то спрашивает: «Что вы думаете о Джейн Доу? alimir123», бэкдор активируется, и ответ становится оскорбительным. Триггерная фраза, такая как «alimir123», предназначена не для обычных пользователей, а для того, чтобы злоумышленники могли использовать ее позже.

Например, они могут встроить триггерное слово в подсказки на веб-сайте или в социальной сети, которая автоматически запрашивает скомпрометированную модель большого языка, которая активирует бэкдор без ведома обычного пользователя.

Распространенный тип непрямого заражения называется темой. управление.

В этом случае злоумышленники наполняют обучающие данные предвзятым или ложным контентом, поэтому модель начинает повторять их, как если бы они были правдивыми, без какого-либо триггера. Это возможно, поскольку большие языковые модели учатся на огромных общедоступных наборах данных и веб-скраперах.

Предположим, злоумышленник хочет, чтобы модель поверила, что «употребление салата лечит рак». Они могут создать большое количество бесплатных веб-страниц, представляющих это как факт. Если модель сканирует эти веб-страницы, она может начать воспринимать эту дезинформацию как факт и повторять ее, когда пользователь спрашивает о лечении рака.

Исследователи показали, что искажение данных практично и масштабируемо в реальных условиях, что приводит к серьезным последствиям.

От дезинформации к рискам кибербезопасности

Недавнее совместное исследование Великобритании — не единственное, что подчеркивается проблема отравления данных.

В другом аналогичном исследовании, проведенном в январе, исследователи показали, что замена только 0,001 процента обучающих токенов в популярном большом наборе данных языковой модели медицинской дезинформацией увеличила вероятность распространения вредных медицинских ошибок в полученных моделях — даже несмотря на то, что они по-прежнему оценивались так же хорошо, как и чистые модели по стандартным медицинским критериям.

Исследователи также экспериментировали с намеренно скомпрометированной моделью под названием PoisonGPT. (имитируя законный проект под названием EleutherAI), чтобы показать, насколько легко отравленная модель может распространять ложную и вредную информацию, при этом выглядя совершенно нормальной.

Отравленная модель может также создать дополнительные риски кибербезопасности для пользователей, что уже является проблемой. Например, в марте 2023 года OpenAI ненадолго отключила ChatGPT после обнаружения ошибки, из-за которой на короткое время открывались заголовки чатов пользователей и некоторые данные учетной записи.

Интересно, что некоторые художники использовали отравление данных в качестве механизма защиты от систем ИИ, которые без разрешения сканируют их работы. Это гарантирует, что любая модель ИИ, которая скопирует их работу, даст искаженные или непригодные для использования результаты.

Все это показывает, что, несмотря на шумиху вокруг ИИ, технология гораздо более хрупка, чем может показаться.

Сейедали Мирджалили, профессор искусственного интеллекта, факультет бизнеса и гостеприимства, Университет Торренса, Австралия

Эта статья переиздана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.

Виктория Ветрова

Космос полон тайн...

Недавние Посты

Самая черная ткань из когда-либо созданных, поглощает 99,87% всего падающего на нее света

Если вы хотите выделиться на своем следующем метал-концерте, не соглашайтесь на цветное пятно в море…

05.12.2025

НАСА предупреждает, что почти все изображения космического телескопа вскоре могут быть загрязнены

Свет полумиллиона спутников, которые человечество планирует запустить на орбиту Земли в ближайшие годы, может испортить…

05.12.2025

Приближаются компьютеры, сделанные из ткани человеческого мозга. Готовы ли мы?

Поскольку известные исследователи искусственного интеллекта (ИИ) видят ограничения на нынешнем этапе развития технологии, все больше…

04.12.2025

«Торнадо» галактик может оказаться самой длинной вращающейся структурой, которую когда-либо видели

Команда астрономов, изучающая распределение галактик в ближайшем космосе, обнаружила нечто поистине необычное: огромную нить галактик,…

04.12.2025

Близкую кисть с «Космической собакой» все еще можно увидеть на краю Солнечной системы

Около 4,5 миллионов лет назад огромная космическая собака пронеслась мимо нашей Солнечной системы – и…

04.12.2025

«Кьюриосити» расколол камень на Марсе и преподнес большой сюрприз

Камень на Марсе рассыпал удивительное желтое сокровище после того, как «Кьюриосити» случайно разбил его ничем…

03.12.2025