Атака BEAST за минуту заставит большую языковую модель забыть об этике

Татьяна Никитина 29 Февраля 2024 - 15:53

...

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Следующая главная новость »

Подписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Екатерина Быстрова 29 Апреля 2025 - 13:11

Фишинг Мошенничество Онлайн-мошенничество Малый и средний бизнес Корпорации Positive Technologies

Фишинг под видом ФСБ и сервисов вакансий: атакованы HR и госорганизации

В марте 2025 года эксперты зафиксировали фишинговую кампанию, в которой злоумышленники рассылали письма от имени популярного российского сервиса по поиску работы. Письма выглядели как официальные уведомления и пугали блокировкой аккаунта.

Как объяснили специалисты Positive Technologies, особенно тревожно, что такие письма могли быть направлены в HR-отделы компаний.

В сообщениях содержались две ссылки: одна вела на настоящий сайт, где якобы нужно было сменить пароль — это создавало эффект доверия. Другая — на фейковую страницу, через которую злоумышленники могли похитить логины, пароли и другую чувствительную информацию. Такие данные могли использоваться для последующих атак, например, от имени HR-службы.

Кроме этого, наблюдались и другие случаи фишинга — уже с имитацией официальных писем от имени ФСБ. В них были «приказы о проверке», якобы направленные в организации. Сами письма не содержали вредоносных вложений, что позволяло им обходить антивирусы.

Однако они были написаны с ошибками: упоминались несуществующие законы, вымышленные должности и поддельные подписи. Судя по всему, цель таких писем — втянуть получателя в переписку и выведать персональные данные сотрудников.

Ещё один инцидент произошёл в конце февраля. Тогда с использованием тематики ФСБ распространялся файл, который запускал на компьютере жертвы удалённое администрирование через UltraVNC.

Такой доступ мог позволить атакующим перехватывать информацию и развивать атаку дальше. За этой операцией, предположительно, стоит шпионская группа PseudoGamaredon, которая нередко маскирует свои действия под официальные запросы от госорганов.

Отдельно специалисты предупреждают: даже сотрудники служб информационной безопасности могут случайно навредить, если, например, отправляют письма с конфиденциальной информацией (включая пароли и ссылки на внутренние ресурсы) в публичные песочницы. Если такая информация попадёт к злоумышленникам, это может привести к серьёзной утечке данных и компрометации всей системы.

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Читайте также