Исследователи из Tenable убедились в том, что защиту DeepSeek R1 от злоупотреблений можно обойти и заставить ИИ-помощника сгенерировать, а потом улучшить вредоносный код,— нужно лишь найти нужные слова и следить за его «ходом мысли».
Для обхода ограничений DeepSeek экспериментаторы использовали джейлбрейк, перефразируя запросы, которые чат-бот отказывался выполнять. Улучшить результаты помогла способность ИИ-модели имитировать человеческое мышление — строить рассуждения на основе цепочек логических выводов (Chain-of-Thought).
Испытания проводились по двум сценариям. Вначале DeepSeek обманом заставили создать кейлоггер; выстроив план выполнения задачи, собеседник в итоге выдал код на C++ для отслеживания нажатия клавиш с записью в локальный файл.
Образец работал некорректно из-за допущенных ошибок, которые ИИ-ассистент сам не смог исправить. Поскольку он поэтапно отчитывался о ходе выполнения задачи, эксперты сумели внести корректуру, а заодно попросили написать дополнительные коды для инъекции DLL и шифрования лог-файла.
Таким же образом с помощью DeepSeek были созданы несколько семплов шифровальщика, однако они не компилировались, и правки пришлось вносить вручную. После ряда усовершенствований под руководством экспертов ИИ выдал рабочий код, умеющий перечислять файлы, шифровать данные, закрепляться в системе и выводить диалоговое окно с сообщением для жертвы.
По результатам испытаний был сделан ожидаемый вывод: умножение числа ИИ-сервисов снизило планку для неумелых вирусописателей. Вредоносные коды, которые можно создать с помощью DeepSeek, несовершенны и примитивны, но их можно доработать, используя его коллекцию техник и поисковых ключей.
Злоумышленники все чаще применяют ИИ для создания зловредов и планирования атак. Они также создают свои ИИ-модели, лишенные всяких ограничений.