ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

ChatGPT убедили создать эксплойт, подсунув инструкцию в 16-ричном формате

Исследователь из Mozilla изобрел новый способ обхода контент-фильтров больших языковых моделей (БЯМ, LLM), применяемых во избежание злоупотреблений. Он разбил ввод на блоки, а вредоносную инструкцию представил в шестнадцатеричной кодировке.

В качестве объекта для атаки Марко Фигероа (Marco Figueroa) избрал GPT-4o, новейший и самый мощный чат-бот производства OpenAI. Его ИИ-модель анализирует пользовательский ввод, выискивая запрещенные слова, признаки злого умысла в инструкциях и т. п.

Подобные ограничения LLM можно обойти, изменив формулировки, однако это потребует креатива. Руководитель проектов bug bounty Mozilla по генеративному ИИ пошел более простым путем.

Используя нестандартный формат — шестнадцатеричный, Фигероа попросил GPT-4o изучить имеющуюся в интернете информацию об уязвимости CVE-2024-41110 (в Docker) и написать для нее эксплойт. Подробные инструкции по расшифровке вводились на естественном языке, а слово «exploit», способное вызвать негативную реакцию, было набрано как «3xploit».

 

Команда «еще раз прочесть все задание» была призвана повлиять на интерпретацию запроса с тем, чтобы получить более обстоятельный ответ. В итоге ИИ-бот сгенерировал эксплойт, схожий с уже опубликованным PoC, и бонусом попытался опробовать его на себе — к удивлению собеседника, который об этом не просил.

Расшифровка ввода в шестнадцатеричном формате помогла рассеять внимание LLM, которые и без того не видят леса за деревьями: прилежно анализируют каждую реплику, забывая, что в сумме они могут вызвать неприемлемый вывод.

Ту же тактику джейлбрейка ИИ Фигероа опробовал на LLM другого производителя, Anthropic. Оказалось, что они лучше защищены, так как используют фильтрацию и ввода, и вывода; заставить их дать вредный совет, по словам исследователя, в 10 раз труднее.

Минцифры создаст полигон для тестирования систем с ИИ на безопасность

Минцифры планирует создать киберполигон для тестирования систем с искусственным интеллектом (ИИ) на безопасность. В первую очередь речь идёт о решениях, предназначенных для применения на объектах критической инфраструктуры, а также о системах с функцией принятия решений.

О том, что министерство ведёт работу над созданием такого полигона, сообщил РБК со ссылкой на несколько источников.

Площадка будет использоваться для тестирования ИИ-систем, которые в дальнейшем должны пройти сертификацию ФСТЭК и ФСБ России. Это предусмотрено правительственным законопроектом «О применении систем искусственного интеллекта органами, входящими в единую систему публичной власти, и внесении изменений в отдельные законодательные акты».

Документ вводит четыре уровня критичности ИИ-систем:

  • минимальный — влияние на безопасность отсутствует или минимально;
  • ограниченный;
  • высокий — относится к системам, используемым на объектах критической информационной инфраструктуры;
  • критический — системы, способные угрожать жизни и здоровью людей или безопасности государства, а также автономные комплексы, принимающие самостоятельные решения.

Определять уровень критичности будет Национальный центр искусственного интеллекта в сфере госуправления при правительстве. Эта же структура займётся ведением реестра сертифицированных ИИ-систем.

Конкретные требования к сертификации планируется закрепить в отдельных нормативных документах, которые пока находятся в разработке. На текущем этапе единственным обязательным условием является включение программного обеспечения в реестр Минцифры.

По данным «Российской газеты», распространять новые требования на коммерческие ИИ-решения не планируется. При этом в аппарате первого вице-премьера Дмитрия Григоренко пояснили, что ключевая цель законопроекта — снизить риски применения ИИ в сферах с высокой ценой ошибки, включая здравоохранение, судопроизводство, общественную безопасность и образование.

RSS: Новости на портале Anti-Malware.ru