Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

ХардкорИТ: представлена новая методология построения киберзащиты

Positive Technologies представила на форуме FINOPOLIS 2024 новую методологию построения киберзащиты — ХардкорИТ. C одной стороны, она поможет осложнить и замедлить путь атакующих, с другой — позволит оценить уровень защищенности понятными бизнесу метриками.

В 2023 году финсектор оказался в тройке самых атакуемых отраслей. По данным пентестов, проведенных Positive Technologies, 96% компаний не защищены от проникновения хакеров в их ИТ-инфраструктуру.

При этом для успешной атаки и нанесения недопустимого ущерба злоумышленникам требуется от 6,5 часов. Для проникновения в локальную сеть трех из четырех организаций достаточно сделать всего три шага.

Согласно исследованиям, проведенным Positive Technologies, лишь чуть более трети компаний в состоянии обеспечить адекватный уровень защиты. Остальным не хватает ресурсов, чтобы вовремя выявить инцидент и не дать ему разрастись.

Подход ХардкорИТ заключается в том, чтобы замедлить атаку злоумышленников (time to attack, TTA) и предоставить команде по защите от киберинцидентов больше времени на реагирование и локализацию (time to contain, TTC). Для этого специалисты Positive Technologies создали тепловую карту, наложенную на матрицу MITRE ATT&CK. С ее помощью можно посчитать время атаки на любую ИТ-инфраструктуру.

Результаты моделирования показали, что для непрерывной работы критически важных бизнесу сервисов TTA должно быть в два раза больше TTC. Например, если период реагирования составляет 8 часов, необходимо увеличить время продвижения злоумышленника в системе до 16. Таким образом ХардкорИТ помогает бизнесу добиться прогнозируемой киберустойчивости с опорой на четкие метрики: время кибератаки и количество шагов для ее реализации.

Внедрение методологии поможет компаниям определить показатели времени атаки и реагирования на киберинцидент и сформировать программу трансформации ИТ-инфраструктуры, чтобы увеличить период, необходимый хакерам для причинения неприемлемого ущерба. ХардкорИТ позволит выявить наиболее опасные векторы атак и точки проникновения в ИТ-инфраструктуру для каждой организации.

Anti-Malware Яндекс ДзенПодписывайтесь на канал "Anti-Malware" в Telegram, чтобы первыми узнавать о новостях и наших эксклюзивных материалах по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru