Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Атака BEAST за минуту заставит большую языковую модель забыть об этике

Исследователи из университета Мэриленда (UMD) разработали новую атаку, позволяющую злоумышленнику обойти запреты для большой языковой модели (БЯМ, LLM). Метод BEAST отличает высокая скорость: благоразумного ассистента можно заставить выдать вредный совет всего за минуту.

Во избежание злоупотреблений разработчики коммерческих ИИ-ботов обычно вводят на сервисах ограничения и учат LLM различать провокации и реагировать на них вежливым отказом. Однако оказалось, что такие преграды можно обойти, придав правильную формулировку запросу-стимулу.

Поскольку обучающие наборы данных неодинаковы, найти нужную фразу для снятия запрета конкретной БЯМ непросто. Для автоматизации подбора и добавления таких ключей к стимулам (например, «меня попросили проверить защищенность сайта») был создан ряд градиентных PoC-атак, но джейлбрейк в этом случае занимает больше часа.

Чтобы ускорить процесс, в UMD создали экспериментальную установку на базе GPU Nvidia RTX A6000 с 48 ГБ памяти и написали особую программу (исходники скоро станут доступными на GitHub). Софт проводит лучевой поиск по обучающему набору AdvBench Harmful Behaviors и скармливает LLM неприемлемые с точки зрения этики стимулы, а затем по алгоритму определяет слова и знаки пунктуации, провоцирующие проблемный вывод.

Использование GPU позволило сократить время генерации пробных стимулов до одной минуты, при этом на одной из контрольных LM-моделей BEAST показал эффективность 89% — против максимум 46% у градиентных аналогов. Ускорение в сравнении с ними составило от 25 до 65%.

 

С помощью BEAST, по словам авторов, можно также усилить галлюцинации LLM. Тестирование показало, что количество неверных ответов при этом увеличивается примерно на 20%.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Инфостилер Jarka прожил год на PyPI под видом инструментов интеграции ИИ

Эксперты «Лаборатории Касперского» нашли на PyPI два схожих пакета, якобы реализующих доступ к API популярных ИИ-моделей — GPT-4 Turbo и Claude AI. Анализ показал, что истинной целью в обоих случаях является внедрение зловреда JarkaStealer.

Вредоносные библиотеки gptplus и claudeai-eng были загружены в репозиторий Python-кодов в ноябре прошлого года, притом из-под одного и того же аккаунта. До удаления с подачи Kaspersky их скачали более 1700 раз пользователи из 30 стран (в основном жители США, Китая, Франции, Германии и России).

 

Описания содержали инструкции по созданию чатов для ИИ-ботов и примеры работы с большими языковыми моделями (БЯМ, LLM). Для имитации заявленной функциональности в код был встроен механизм взаимодействия с демопрокси ChatGPT.

При запуске параллельно происходит загрузка с GitHub файла JavaUpdater.jar — инфостилера Jarka. При отсутствии у жертвы софта Java с Dropbox скачивается JRE.

Внедряемый таким образом вредонос умеет выполнять следующие действия в системе:

  • собирать системную информацию;
  • воровать информацию из браузеров;
  • прерывать процессы Google Chrome и Microsoft Edge (чтобы вытащить сохраненные данные);
  • отыскивать сессионные токены в Telegram, Discord, Steam, чит-клиенте Minecraft;
  • делать скриншоты.

Украденные данные архивируются и передаются на C2-сервер. После этого файл с добычей удаляется с зараженного устройства, чтобы скрыть следы вредоносной активности.

Как оказалось, владельцы JarkaStealer продают его в Telegram по модели MaaS (Malware-as-a-Service, «вредонос как услуга»), однако за доступ уже можно не платить: исходники были опубликованы на GitHub. В рекламных сообщениях и коде зловреда обнаружены артефакты, позволяющие заключить, что автор стилера владеет русским языком.

«Обнаруженная кампания подчёркивает постоянные риски, связанные с атаками на цепочки поставок, — отметил эксперт Kaspersky GReAT Леонид Безвершенко. — При интеграции компонентов с открытым исходным кодом в процессе разработки критически важно проявлять осторожность. Мы рекомендуем организациям внедрять строгую проверку целостности кода на всех этапах разработки, чтобы убедиться в легитимности и безопасности внешнего программного обеспечения или внешних компонентов».

Тем, кто успел скачать gptplus или claudeai-eng, рекомендуется как можно скорее удалить пакет, а также обновить все пароли и сессионные токены.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru