Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Инфостилер Jarka прожил год на PyPI под видом инструментов интеграции ИИ

Эксперты «Лаборатории Касперского» нашли на PyPI два схожих пакета, якобы реализующих доступ к API популярных ИИ-моделей — GPT-4 Turbo и Claude AI. Анализ показал, что истинной целью в обоих случаях является внедрение зловреда JarkaStealer.

Вредоносные библиотеки gptplus и claudeai-eng были загружены в репозиторий Python-кодов в ноябре прошлого года, притом из-под одного и того же аккаунта. До удаления с подачи Kaspersky их скачали более 1700 раз пользователи из 30 стран (в основном жители США, Китая, Франции, Германии и России).

 

Описания содержали инструкции по созданию чатов для ИИ-ботов и примеры работы с большими языковыми моделями (БЯМ, LLM). Для имитации заявленной функциональности в код был встроен механизм взаимодействия с демопрокси ChatGPT.

При запуске параллельно происходит загрузка с GitHub файла JavaUpdater.jar — инфостилера Jarka. При отсутствии у жертвы софта Java с Dropbox скачивается JRE.

Внедряемый таким образом вредонос умеет выполнять следующие действия в системе:

  • собирать системную информацию;
  • воровать информацию из браузеров;
  • прерывать процессы Google Chrome и Microsoft Edge (чтобы вытащить сохраненные данные);
  • отыскивать сессионные токены в Telegram, Discord, Steam, чит-клиенте Minecraft;
  • делать скриншоты.

Украденные данные архивируются и передаются на C2-сервер. После этого файл с добычей удаляется с зараженного устройства, чтобы скрыть следы вредоносной активности.

Как оказалось, владельцы JarkaStealer продают его в Telegram по модели MaaS (Malware-as-a-Service, «вредонос как услуга»), однако за доступ уже можно не платить: исходники были опубликованы на GitHub. В рекламных сообщениях и коде зловреда обнаружены артефакты, позволяющие заключить, что автор стилера владеет русским языком.

«Обнаруженная кампания подчёркивает постоянные риски, связанные с атаками на цепочки поставок, — отметил эксперт Kaspersky GReAT Леонид Безвершенко. — При интеграции компонентов с открытым исходным кодом в процессе разработки критически важно проявлять осторожность. Мы рекомендуем организациям внедрять строгую проверку целостности кода на всех этапах разработки, чтобы убедиться в легитимности и безопасности внешнего программного обеспечения или внешних компонентов».

Тем, кто успел скачать gptplus или claudeai-eng, рекомендуется как можно скорее удалить пакет, а также обновить все пароли и сессионные токены.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru