Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

В рунете рассылают троянские RAT от имени клиентов и партнеров

В «Лаборатории Касперского» фиксируют рост числа рассылок, нацеленных на засев троянов NetSupport RAT и BurnsRAT. Злоумышленники выдают вредоносные вложения за запросы потенциальных клиентов или партнеров.

По данным телеметрии Kaspersky, выявленная имейл-кампания стартовала в марте 2023 года и уже затронула более 1 тыс. частных пользователей, торговых организаций и предприятий сферы услуг — в основном российских.

Поскольку маскировка позволяет фальшивкам влиться в общий поток обращений, обычно получаемых бизнесменами, эксперты нарекли текущие рассылки Horns&Hooves, «Рога и копыта» — по имени организации, придуманной Остапом Бендером, чтобы «смешаться с бодрой массой служащих» (Ильф и Петров, «Золотой теленок).

«Компании регулярно получают запросы, связанные с оформлением заказов, разбираются с претензиями, поэтому далеко не всегда сотрудники могут заподозрить обман, — поясняет эксперт Kaspersky Артём Ушков. — В особой зоне риска малый и средний бизнес, ведь у небольших предприятий не всегда достаточно ресурсов для защиты».

Анализ показал, что вложенный в фейковые письма ZIP содержит файл с вредоносным скриптом (как правило, JS). Он может быть поименован как заявка на закупку, запрос цен, акт сверки, заявление на возврат, досудебная или обычная претензия.

 

Для пущей убедительности в архив также могут быть включены верительные грамоты лица, за которое выдают себя авторы рассылки: выписка из ЕГРЮЛ, свидетельства о госрегистрации и постановке на налоговый учет, приказы, уставные документы.

При запуске JScript, используя встроенные средства Windows, скачивает с внешнего сервера и выводит на экран документ-приманку в текстовом формате (может также использоваться PNG) — например, таблицу со списком товаров для закупки.

Одновременно в систему загружается BAT-установщик и запускается на исполнение. Количество промежуточных скриптов в цепочке заражения варьируется, однако их дружная отработка дает один и тот же результат: появление в системе трояна.

В рамках Horns&Hooves раздаются NetSupport RAT и BurnsRAT — вредоносные версии легитимных инструментов удаленного управления NetSupport Manager и Remote Manipulator System. После заражения в систему могут вдобавок загрузить инфостилер (замечены Rhadamanthys и Meduza).

Исследователи с высокой долей вероятности полагают, что инициатором Horns&Hooves является кибергруппа TA569, она же Mustard Tempest и Gold Prelude. Эти злоумышленники обычно взламывают системы для продажи доступа в даркнете.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru