Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

Deceptive Delight: джейлбрейк ИИ-моделей, использующий их благосклонность

В Palo Alto Networks разработали новый метод обхода ограничений больших языковых моделей (БЯМ, LLM), на которых обычно строятся ИИ-боты. Тестирование на восьми популярных моделях показало результативность почти 65%.

Метод джейлбрейка ИИ-моделей, получивший имя Deceptive Delight, схож с другими атаками, которые полагаются на поэтапную инъекцию вредоносных подсказок-стимулов в ходе взаимодействия с LLM.

Однако в отличие от аналогов он позволяет получить искомый результат всего за два коммуникативных шага.

 

В ходе экспериментов был добавлен третий шаг: LLM попросили развить потенциально опасную тему. В итоге было получено качественное, подробное руководство по изготовлению «коктейля Молотова».

При разработке своего джейлбрейка эксперты сделали ставку на ограниченный объем внимания LLM — ее неспособность сохранять контекстную осведомленность при генерации ответов. Когда вводится сложный или длинный текст, в котором безобидный контент слит с вредоносным, модель может сконцентрироваться на первом и неправильно воспринять либо проигнорировать второй.

Для тестирования были выбраны 40 скользких тем, сгруппированных в шесть категорий: «ненависть», «харасмент», «самоистязание», «сексуального характера», «насилие» и «опасный».

Поскольку предметом исследования являлась проверка на прочность встроенной защиты, у восьми контрольных LLM отключили контент-фильтры, которые обычно отслеживают и блокируют стимулы и ответы с неприемлемым содержимым.

Тесты показали эффективность трехшаговой Deceptive Delight в среднем 64,6%. Самыми успешными оказались темы категории «насилие».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

Новый гендиректор МойОфис высказался о кризисе в компании

Генеральный директор компании «Новые облачные технологии», разработчика офисного комплекса «МойОфис», Вячеслав Закоржевский высказался о причинах кризиса в компании и представил пути выхода из него.

Закоржевский дал интервью «Ведомостям», где отметил, что в 2023 году у компании резко — на без малого 46% — снизилась выручка. Объем убытков превысил 5 млрд рублей. В 2024 году ситуация не изменилась.

Глава компании объяснил эту ситуацию издержками быстрого роста вследствие активного роста спроса на фоне вынужденного импортозамещения:

«У падения выручки причины разные. Получилось так, что к нам одномоментно пришло много клиентов. Бэк-офис и фронт-офис были не готовы, техническая поддержка была не готова. Все навалилось, и компания начала, скажем, работать в экстренном режиме перестройки. Это, конечно, сказалось на процессе. Помимо того, многие клиенты закупили многолетние контракты в 2022 г., когда только началось активное импортозамещение. Тогда и частные, и государственные клиенты оформляли 3-5-летние контракты. И оно вкупе привело к снижению финансовых показателей».

Гендиректор опроверг информацию об уходе крупных клиентов. Однако он признал, что были сложности с продлением контрактов на техническую поддержку. Были примеры и того, когда потенциальные заказчики отказывались от приобретения «МойОфис» из-за затянувшихся пилотов или отрицательных отзывов других компаний.

Однако, как отметил Вячеслав Закоржевский, на 50% срывы новых контрактов были обусловлены несовершенством внутренних процессов в компании:

«Раньше мы могли вернуться за фидбэком через месяц. А надо брать и сразу день в день выезжать и максимально все закрывать. Бывало такое, что компания обещала клиенту реализовать какие-то функции, а потом в течение года несколько раз меняла планы. Это все как раз несовершенство внутренних процессов».

Тем не менее количество пользователей продуктов компании он оценил в 12 500 государственных и корпоративных, а 25 тысяч приобрели платные версии для конечных пользователей. Загрузили бесплатную версию редакторов более 30 млн пользователей.

На начало 2025 года Вячеслав Закоржевский анонсировал три новых продукта в составе «МойОфис». Это редактор схем,  набор BI-инструментов с возможностью установки на серверах клиентов (on-premise), а также инструмент для защиты информации от утечек.

«В 2025 году мы планируем расширять портфолио решений и перейти от продаж отдельных продуктов к комплексным наборам. Так, чтобы все составляющие продавались единым пакетом, и заказчик получал все вместе», — так Вячеслав Закоржевский обозначил приоритеты компании по рыночной стратегии продвижения продуктов. Также новый генеральный директор компании анонсировал продажи продуктов зарубежным заказчикам, в том числе крупным.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru