Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Мошенники запустили «валентинку от Дурова» — фейковую акцию Telegram

Компания F6 зафиксировала новый сценарий мошенников, приуроченный ко Дню всех влюблённых. В соцсети TikTok распространяются видео о якобы «секретной валентинке от Павла Дурова», которая обещает пользователям премиум-подписку в Telegram или «звёзды» в подарок партнёру. На деле всё заканчивается попыткой кражи денег и данных банковских карт.

Сценарий обнаружили аналитики департамента защиты от цифровых рисков (Digital Risk Protection) компании F6 в преддверии 14 февраля.

Мошенники публикуют в TikTok ролики, где рассказывают о «секретной акции Telegram» ко Дню святого Валентина. В видео утверждается, что специальная «валентинка от Дурова» позволяет получить Premium или передать «звёзды» другому пользователю.

Для получения «подарка» зрителям предлагают перейти по ссылке в профиле. Она ведёт в телеграм-канал, откуда пользователя перенаправляют в бот под названием «Секретная валентинка».

Дальше всё выглядит почти безобидно: бот просит пройти короткий опрос и выполнить несколько условий. Последнее из них — подписаться более чем на 30 телеграм-каналов, ботов и сайтов, якобы выступающих «спонсорами» акции.

Одна из ссылок ведёт на мошеннический сайт, замаскированный под розыгрыш призов известного маркетплейса. Пользователю предлагают «покрутить барабан», и уже через три попытки он «выигрывает» технику общей стоимостью около 200 тыс. рублей.

После выбора пункта выдачи сайт сообщает, что товаров в наличии нет, и предлагает обменять приз на деньги. Для этого пользователя просят ввести номер банковской карты, а затем — оплатить «пошлину» в размере 2030 рублей, переведя деньги по номеру телефона или QR-коду.

На момент обнаружения схемы ссылка на оплату ещё не работала, но, как отмечают специалисты, злоумышленники могут активировать её в любой момент.

Основные риски для жертв — списание средств с банковского счёта, компрометация данных банковской карты и захват телеграм-аккаунта. Кроме того, за счёт обязательных подписок мошенники искусственно наращивают аудиторию своих каналов и ботов, чтобы использовать её в следующих схемах.

По данным F6, только по схеме с фальшивыми свиданиями (Fake Date) мошенники в праздничные дни — 14 февраля, 23 февраля и 8 марта — похитили у россиян почти 10 млн рублей за прошлый год.

«Перед праздниками киберпреступники регулярно обновляют сценарии обмана. Всё чаще для этого используют TikTok, откуда пользователей уводят на другие платформы, где и происходит мошенничество», — отмечает Анастасия Князева, аналитик второй линии CERT департамента Digital Risk Protection компании F6.

Главная рекомендация специалистов проста: если в интернете вам обещают ценный подарок, премиум-доступ или деньги — почти наверняка это мошенничество. Особенно если для «получения подарка» нужно подписаться на десятки каналов, перейти по цепочке ссылок или ввести данные банковской карты.

RSS: Новости на портале Anti-Malware.ru