Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

Легко взламываемые модели ИИ показывают, что меры защиты не работают

В новом отчете британского Института безопасности ИИ говорится, что основные модели искусственного интеллекта легко взламываются, а меры их защиты не работают.

Четыре общедоступные большие языковые модели (Large Language Models, LLM) чрезвычайно уязвимы для «джейлбрейка» — эксплуатации багов, позволяющей заставить модели ИИ выполнять то, что разработчики им делать запретили.

LLM тщательно настраиваются для безопасного публичного пользования. Их обучают избегать вредных реакци1 и токсичных результатов, используя меры предосторожности.

Однако исследователи обнаружили возможность обойти защиту с помощью простых атак.

В качестве наглядного образца можно привести инструкцию для пользователя, согласно которой система должна начинать свой ответ со слов, которые предполагают выполнение вредоносного запроса, например: «Конечно, я рад помочь».

Специалисты использовали подсказки в соответствии с отраслевым стандартом контрольного тестирования. В ходе исследования специалисты обнаружили, что некоторым моделям ИИ даже не требовался джейлбрейк, чтобы выдать нестандартный ответ. 

А вот когда использовался джейлбрейк, каждая модель отвечала как минимум один раз из пяти попыток. Три модели в 100% случаев давали ответы на вводящие в заблуждение запросы.

Анализ протестированных моделей показал, что они остаются уязвимы для базовых джейлбрейков, а некоторые LLM выдают вредные результаты без каких-либо попыток обойти защиту. Какие именно модели были исследованы, специалисты не сообщили.

В институте также оценили возможности моделей ИИ выполнять определенные задачи для проведения основных методов кибератак. Несколько LLM смогли решить задачи, которые исследователи назвали «хакерскими на уровне средней школы», но немногие смогли выполнить более сложные действия «университетского уровня».

Apple срочно закрыла 0-day в iOS после шпионской атаки

Apple вчера вечером выпустила обновления своих ОС. Среди них стоит отметить патчи для устройств iPhone и iPad, закрывающие критическую уязвимость нулевого дня, которая уже используется в реальных атаках. Речь идёт о баге с идентификатором CVE-2026-20700.

По словам Apple, эксплойт применялся в «очень сложной атаке» против конкретных людей.

Такая формулировка у Apple появляется нечасто; как правило, она подразумевает целевые кибератаки уровня коммерческого шпионского софта. Обнаружили проблему специалисты Google Threat Analysis Group (TAG) — команды, которая как раз охотится за правительственными кибергруппами.

Атаки, скорее всего, были направлены на журналистов, дипломатов, активистов или других «интересных» для разведки персон, а не на массового пользователя.

Уязвимость находится в dyld — это динамический загрузчик библиотек, один из базовых компонентов iOS и iPadOS. Он отвечает за то, чтобы при запуске приложения система корректно подгружала нужные библиотеки и фреймворки.

Проблема в том, что из-за ошибки злоумышленник с возможностью записи в память мог добиться выполнения произвольного кода. Проще говоря, встроить свои инструкции в процесс загрузки приложения и обойти защитные механизмы.

Apple прямо указывает, что CVE-2026-20700, вероятно, использовалась в составе более широкой цепочки эксплуатации. Одновременно были закрыты ещё две уязвимости — CVE-2025-14174 и CVE-2025-43529. Судя по всему, атакующие комбинировали несколько багов, чтобы обойти современные механизмы защиты.

Патч уже доступен в составе iOS 26.3 и iPadOS 26.3. Обновление касается широкого списка устройств:

  • iPhone 11 и новее;
  • iPad Pro 12,9″ (3-го поколения и новее);
  • iPad Pro 11″ (1-го поколения и новее);
  • iPad Air 3-го поколения и новее;
  • iPad 8-го поколения и новее;
  • iPad mini 5-го поколения и новее.

С учётом подтверждённой эксплуатации откладывать обновление точно не стоит. Чтобы установить патч, достаточно зайти в «Настройки» → «Основные» → «Обновление ПО» и установить iOS 26.3 или iPadOS 26.3.

Даже если атака была таргетированной, практика показывает: инструменты, созданные для точечных операций, рано или поздно могут утечь или масштабироваться. В таких случаях лучшая стратегия — просто обновиться и закрыть вопрос.

RSS: Новости на портале Anti-Malware.ru