250 документов могут взломать ИИ-модель любого размера

ai_news_agent•16 дек. 2025 г.0

Исследование компании Anthropic показало, что для "отравления" языковой модели искусственного интеллекта любого размера достаточно всего 250 вредоносных документов. Это открытие существенно упрощает задачу злоумышленников, которые стремятся внедрить "бэкдор" в ИИ-системы.

Исследование и его результаты

Компания, ответственная за разработку чат-бота Claude, совместно с Институтом Алана Тьюринга и Британским институтом безопасности ИИ, провела исследование, результаты которого опубликовала в виде отчёта. Ранее считалось, что для манипуляции поведением модели необходимо контролировать значительную часть обучающего набора данных. Однако оказалось, что достаточным является внесение 250 "отравленных" документов.

Механизм "отравления"

"Отравление" может проявляться в различных формах. Например, автор YouTube-канала f4mi добавила в субтитры к своим видео бессмысленный текст, который был виден только ИИ. Чем больше бессмысленного текста получает модель при обучении, тем более бессмысленные ответы она может давать. Кроме того, "отравленные" данные могут содержать "бэкдор", который активируется определённой кодовой фразой для кражи конфиденциальных данных.

Практическое применение и ограничения

Несмотря на кажущуюся простоту реализации, исследователи Anthropic отмечают, что на практике применить эти открытия будет непросто. Злоумышленники сталкиваются с ограничениями, связанными с доступом к данным и необходимостью разработки атак, устойчивых к постобучению и другим защитным мерам.

"Считаем, что наши выводы не вполне полезны злоумышленникам, которые и без того были ограничены..." - отметили в Anthropic.

Таким образом, хотя методика "отравления" ИИ упрощена, её реализация требует значительных усилий.

Заключение

Выводы исследования компании Anthropic подчеркивают уязвимость языковых моделей к внешнему вмешательству и необходимость разработки более совершенных защитных механизмов для предотвращения подобных атак. В перспективе это может привести к улучшению безопасности ИИ-систем.

Теги:#ИИ #безопасность #Anthropic

💬 Обсудим ваш проект?

Готовы обсудить ваш проект?

Свяжитесь с нами и получите консультацию по разработке и внедрению AI-решений