Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Татьяна Никитина 24 Октября 2024 - 19:58

Домашние пользователи

Корпорации

Palo Alto Networks

Уязвимости программ

Ошибки конфигурации программ

...

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Следующая главная новость »

Подписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Татьяна Никитина 25 Апреля 2025 - 18:05

Фишинг GenAI (генеративный искусственный интеллект) Общее

Активность фишеров за месяц возросла на 17% за счет использования ИИ

Согласно статистике KnowBe4, в феврале 2025 года число фишинговых писем возросло на 17% в сравнении с показателями шести предыдущих месяцев. Основная масса таких сообщений (82%) содержала признаки использования ИИ.

Подобная возможность, по словам экспертов, позволяет усилить полиморфизм атак фишеров — рандомизацию заголовков, содержимого, отправителей поддельных писем.

Незначительные изменения, на лету привносимые ИИ, позволяют с успехом обходить традиционные средства защиты — блок-листы, статический сигнатурный анализ, системы защиты класса SEG.

По данным KnowBe4, больше половины полиморфных фишинговых писем (52%) рассылаются с взломанных аккаунтов. Для обхода проверок подлинности отправителя злоумышленники также используют фишинговые домены (25%) и веб-почту (20%).

Более того, использование ИИ позволяет персонализировать сообщения-ловушки за счет динамического (в реальном времени) сбора информации об адресатах из открытых источников, а также сделать их настолько убедительными, что получатель даже не заподозрит подвох.

По данным KnowBe4, активность фишеров, освоивших новые возможности, за год возросла на 53%. Рост количества случаев использования ИИ в атаках отметили и другие эксперты. Для эффективного противодействия новой угрозе нужны более совершенные ИБ-инструменты — скорее всего, на основе того же ИИ.

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Читайте также