Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Александр Осипов занял пост директора по продуктовому портфелю RED Security

RED Security объявила о назначении Александра Осипова директором по продуктовому портфелю компании. Александр Осипов обладает более чем 10-летним опытом работы в отрасли информационных технологий и кибербезопасности.

До прихода в RED Security он пять лет возглавлял направление облачных и инфраструктурных решений оператора «Мегафон».

Александр Осипов начал карьеру в ИТ в 2013 году. Он начал с позиции менеджера по маркетингу российского провайдера облачных сервисов NGENIX. Затем участвовал в запуске и развитии ИТ- и ИБ-сервисов NGENIX.

В 2017 году Александр перешел в «Мегафон», где начал заниматься развитием платформенных решений для корпоративного бизнеса. В «Мегафоне» Осипов начинал с должности специалиста по продуктам в сфере сетевых технологий и кибербезопасности, а покинул компанию директором по облачным и инфраструктурным решениям.

В этой роли Александр отвечал за продуктовую стратегию «Мегафона» в сегментах облачных продуктов, сервисов кибербезопасности, сетевых и IoT-решений для коммерческого и государственного сектора.

Под руководством Александра Осипова в «Мегафоне» были успешно запущены и выведены на как минимум безубыточность платформа «МегаФон Облако», сервисы центра мониторинга и реагирования на кибератаки (SOC), управляемые сервисы кибербезопасности (MSS) и другие решения компании сферы ИТ и ИБ. Эти сервисы были отмечены отраслевыми премиями, включая Digital Leaders Award и «Большая цифра».

В RED Security Александр Осипов будет отвечать за управление портфелем продуктов, технологическое сопровождение и развитие сервисов, причем как новых решений, так и модернизация уже имеющихся в соответствии с требованиями рынка.

«Александр обладает многолетним опытом управления продуктовым портфелем по кибербезопасности в крупнейших российских компаниях. Он ориентируется на создание комплексного предложения в сфере защиты от киберугроз, опираясь при этом как на мировые технологические тренды, так и на актуальные потребности российских заказчиков из корпоративного сегмента. Мы рады приветствовать Александра в нашей команде и уверены, что его опыт поможет компании реализовать стратегию по формированию открытой экосистемы ИБ-решений и экспертизы для надёжной защиты бизнеса. Кроме того, успех направлений кибербезопасности, за которые Александр отвечал в других компаниях, подтверждает, что он сможет достичь амбициозных целей RED Security по достижению высочайшего уровня наших сервисов», – подчеркнул Иван Вассунов, генеральный директор компании RED Security.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru