Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность
Акция от Infosecurity! Обучайте сотрудников с выгодойПодключайте сервис TRAINING CENTER. Организацию и контроль обучения берем на себя:
• Разработаем индивидуальные шаблоны учебного фишинга.
• Сформируем учебные группы и проведем учебные фишинговые атаки.
• Проконтролируем процесс и определим результаты.

При заключении договора сроком на 1 год и более – сопровождение бесплатно.
Набор и стоимость услуг зависят от количества пользователей, и размер скидки уточняйте у менеджера.

→ Оставить заявку
Реклама. Рекламодатель ООО «ИС», ИНН 7705540400, 18+

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

Эксперты президентского совета не поддержали законопроект об охране голоса

Совет при президенте по кодификации и совершенствованию гражданского законодательства не поддержал законопроект об охране голоса. По их мнению, отечественное законодательство уже защищает голос как одно из материальных благ.

С отзывом на законопроект о защите голоса, который внесла в Госдуму 16 сентября группа депутатов обеих палат, ознакомилось издание «Ведомости».

Законопроект предлагает дополнить Гражданский кодекс новой статьей, которая бы регламентировала использование голоса граждан, включая воссозданный с помощью технических средств (дипфейк).

Использование голоса, в том числе дипфейков, авторы законопроекта допускают лишь с согласия обладателя или его прямых наследников в случае смерти или недееспособности. Предполагаются и исключения, например, в том случае, если запись используется в публичных интересах, запись была сделана в месте, открытом для свободного посещения, или в рамках оплачиваемой работы.

Необходимость появления нового нормативного акта его авторы объясняют широким распространением голосовых дипфейков, в том числе в противоправных целях. При этом право на охрану голоса, по мнению разработчиков законопроекта, никак не закреплено в законодательстве.

Эксперты Совета при президенте по кодификации и совершенствованию гражданского законодательства, наоборот, считают, что Конституционный суд оставляет перечень нематериальных благ открытым, и он включает и голос.

Плюс ко всему Гражданский кодекс в полной мере защищает актеров или певцов, а законодательство о защите персональных данных – голос как часть биометрических данных. Эксперты обратили внимание на то, что авторы не привели примеров из судебной практики, связанных с неправомерным использованием голоса.

Кроме того, авторы законопроекта взяли за образец действующую 152.1 Гражданского кодекса, которая относится к защите изображений гражданина. Однако такую аналогию, по мнению экспертов, проводить нельзя. К тому же при разбирательствах по данной статье из-под ее действия выводятся карикатуры и шаржи.

По мнению опрошенных «Ведомостями» юристов, проблема еще шире. Партнер фирмы «Рустам Курмаев и партнеры» Дмитрий Горбунов:

«Текущая версия законопроекта и заложенные в нем принципы выглядят противоречиво с точки зрения сложившейся не только в России, но и во всем мире правоприменительной практики и законодательства».

Объектом авторского права считается не голос как таковой, а фонограмма или иные аудиоматериалы.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru