Безопасность GenAI: угрозы, ошибки и как с ними бороться

GenAI и безопасность: почему необходим новый подход?

GenAI и безопасность: почему необходим новый подход?

Опыты с генеративным искусственным интеллектом показали, что ИИ может совершать ошибки не реже человека. «Обязательно перепроверяйте ответы», — говорят нам. Но натура людей такова, что они, начав доверять, перестают проверять ответы GenAI. Риск появления в них ошибок — это будущие проблемы и сбои. Какие именно?

 

 

 

 

 

  1. Введение
  2. GenAI — это часть большой экосистемы
  3. Борьба с ошибками людей
  4. Как бороться с ошибками GenAI?
  5. Как добиться правильного ответа от GenAI
  6. Критическая значимость ошибок GenAI
  7. Откажутся ли люди от GenAI-систем из-за их ошибок?
  8. Генеративный ИИ и его ошибки в сфере кибербезопасности
  9. Выводы

Введение

То, что люди постоянно совершают ошибки, делая это каждый день, не вызывает сомнений. Некоторые их ошибки незначительны, но встречаются и катастрофические. Ошибки могут подрывать доверие друзей или коллег, проводить к серьезным последствиям. Но ошибки человека воспринимаются окружающими естественно, к ним привыкают: errare humanum est. При их возникновении ссылаются на «человеческий фактор» и стараются их устранять. С GenAI многое обстоит иначе.

Для начала скажем, что появление компьютеров заставило людей пересмотреть сам подход к ошибкам. Логика компьютерных систем требует считать, что компьютер всегда вычисляет точно (в соответствии с алгоритмом). Ошибка в работе компьютера — это либо аппаратный отказ в выполнении определенной функции, либо сбой алгоритмов, а не самих вычислительных машин.

Но появление более сложных прикладных систем породило понимание того, что не все вычисления можно считать успешными. С переходом к облачным и сервисным вычислениям разница между алгоритмами и аппаратным оснащением стёрлась. Появились «общие» ошибки, связанные с алгоритмами вычислений, но переносимые на всю компьютерную систему в целом. 

С появлением GenAI эта особенность проявляется уже в полную силу. Причины его ошибок уже не делятся по источнику их появления: компьютер, алгоритм, структура системы. Поэтому эти «единые» ошибки требуют осмысления. Чем ошибки GenAI отличаются от тех, которые делает человек или компьютер?

 

Рисунок 1. GigaChat сам признает, что делает иногда грубые ошибки

GigaChat сам признает, что делает иногда грубые ошибки

 

GenAI — это часть большой экосистемы

Программы сегодня применяются повсеместно, они участвуют в управлении не только механизмов, но и жизни людей. В то же время программы стали достаточно сложными. Например, компьютерные системы, используемые в автомобиле, содержат десятки миллионов строк кода. При этом автомобильная отрасль продолжает развиваться, требуя создания все большего числа программ.

До сих пор программы создавались только человеком. Но не так давно разработчики познакомились с инструментом GitHub Copilot. Это — пример применения GenAI для разработчиков. Он предлагает автозаполнять код по мере его написания. Новый интеллектуальный инструмент повышает производительность программистов, а по сути — сам создает новый код.

Конечно, разработка крупных программных систем является многоуровневой. На верхнем уровне до сих пор остаются люди — архитекторы приложений. Внедрение GenAI относится к нижнему уровню, где работают «кодеры». Но контроль отсутствия ошибок в их работе пока планируется ограничивать только алгоритмической проверкой. Искать уязвимости там никто не будет, кроме злоумышленников, команд Red Teaming и других ИИ

Мы упомянули, что ошибки в новых системах перестали быть «чисто программными». Это — «ошибки уровня экосистемы». Поэтому, например, для ПО для подбора персонала требуется не только алгоритмический контроль. Необходимо также гарантировать отсутствие предвзятости при сравнении данных кандидатов по разным признакам, например, гендерным, расовым и т.д. Если в такой программе в качестве фундамента используется западная ИИ-модель, обученная и отмодерированная в духе нынешних идеологических течений, то этот вопрос — далеко не праздный. 

Фактически процесс перехода на GenAI-поддержку при разработке программ уже запущен. Новые системы называются немного иначе — no code/low code. По сути речь идет о применении готовых блоков, собираемых наподобие конструктора. Сейчас их собирает человек, в будущем это будут делать ИИ-роботы.

 

Рисунок 2. Причины появления ошибок в ответах GigaChat

Причины появления ошибок в ответах GigaChat

 

Борьба с ошибками людей

Считается, что люди совершают в среднем от трех до шести ошибок в час или около 50 ошибок за рабочую смену. Человеческий фактор является причиной для почти всех несчастных случаев на производстве. Заметную роль он играет и в кибербезе.

Человеческие ошибки могут быть вызваны различными факторами. В их число относят:

  • недостаток внимания;
  • недостаток знаний или обучения;
  • усталость;
  • врожденные ограничения в когнитивных способностях;
  • когнитивные искажения;
  • личные проблемы (например, стресс от чрезмерной рабочей нагрузки).

Для борьбы с ошибками, создаваемыми людьми, придумано немало способов. Их продумывают чаще всего заранее и вносят в правила работы и должностные инструкции. 

Но чаще всего говорят о человеческих ошибках, которые связаны с усталостью и, как следствие, потерей остроты внимания. Именно поэтому, например, водителям автомобилей рекомендуется делать перерыв при вождении, точно также как на конвейере 10-минутный перерыв является обязательным после 50 минут работы. 

Часто используют и дополнительные способы борьбы с ошибками. Например, во время хирургических операций все инструменты предварительно пересчитываются. Это позволяет вовремя убедиться, что они не были забыты внутри пациента. Другой пример — бухгалтерские проводки. Там одновременно на каждую внешнюю транзакцию автоматически формируются две записи — исходящая и входящая проводки. Это помогает избежать потери финансовых средств в системе. 

Как бороться с ошибками GenAI?

Использование GenAI для задач кибербезопасности многим кажется абсолютно необходимым требованием. Например, по оценкам Gartner, до 95% нарушений режима ИБ в облаках происходят из-за ошибок, связанных с участием человека. Исключение человека из участия в этом процессе, автоматически обещает дать многократный рост киберзащищенности.

ИИ уже используется в кибербезопасности. С его помощью обнаруживают ошибки в конфигурациях, отсеивают фишинговые письма, устраняют попытки компрометации учетных данных. Изобретения на базе GenAI, такие как большие языковые модели (LLM), могут найти широкое применение для выполнения различных креативных задач. 

Но и новые системы также допускают ошибки. В публичное обсуждение обычно попадают самые смешными случаи, например, когда чат-бот предлагает добавить клей в пиццу или предлагает съесть камни, являющиеся частью блюда содю (suodiu) из традиционной китайской кулинарии.

Не будем отходить от трендов и попросим сам ИИ рассказать, чем его ошибки отличаются от тех, которые совершает человек. В тестах мы будем использовать чат-бот GigaChat от «Сбера».

 

Рисунок 3. Отличие ошибок в ответах GigaChat от тех, которые делает человек

Отличие ошибок в ответах GigaChat от тех, которые делает человек

 

Сразу отметим отличие GenAI от человека. Последнего бессмысленно переспрашивать: он ответит то, что уже сказал. Но с GenAI все иначе. Он обучается на общении с вами, поэтому его повторный ответ на тот же вопрос будет другим. Условно говоря, ИИ считает (точнее так считают его разработчики), что раз вы повторяете вопрос, значит первый ответ вас не удовлетворил. Поскольку «генерация» ответа связана с «поиском» внутри накопленных знаний, то при повторном проходе GenAI уже «знает» ваши интересы и старается пойти по тому пути, который больше им соответствует. 

Итак, спрашиваем GigaChat повторно и получаем новый ответ.

 

Рисунок 4. «Улучшенный» ответ о собственных ошибках GigaChat

«Улучшенный» ответ о собственных ошибках GigaChat

 

Дополним ответ GigaChat. Главное отличие ошибок, совершаемых ИИ, состоит в том, что они возникают совершенно случайным образом без какой-либо группировки вокруг определенной области знаний. Ошибки человека связаны еще с состоянием неуверенности, психологическими нюансами. ИИ не способен на чувства, поэтому он всегда «уверен». Его ответ определен алгоритмом и правилами выбора с учетом существующих коэффициентов «причастности». Поэтому два, совершенно разных (по контенту) ответа на один и тот же вопрос являются равнозначными и безошибочными, с точки зрения GenAI.

Как видим, важнейшим признаком «правильности» являются введенные на этапе обучения «весовые коэффициенты». Главная опасность, как считают исследователи, состоит в том, что они задаются на «одноходовых» задачах, не требующих сложных многошаговых операций. Для них GenAI использует собственную логику отбора. 

Как рассуждает человек? Многое в его оценке зависит от его доверия к источнику информации. Например, если это — другой человек, то оценивается его компетентность, опираясь на опыт работы или достоверность других, ранее сделанных ответов. Как «рассуждает» GenAI? У него применяется скрытая логика отбора суждений. Внешне этот процесс кажется случайным и непоследовательным, поэтому уверенность в достоверности его ответов достигается на этапе обучения. 

Результат? GenAI может умело отобрать сложные факторы, обеспечивающие прибыльность, при решении бизнес-задач, но при этом может ошибиться в интерпретации сфер приложения денег.

Мы попробовали смоделировать такую ситуацию с GigaChat и убедились, что как только GenAI входит в состояние неопределенности (или, возможно, вопрос попадает в список запретов), то он выдает «дежурный» ответ.

 

Рисунок 5. «Сложный» вопрос для GigaChat

«Сложный» вопрос для GigaChat

 

Необходимость борьбы с ошибками рассматривалась уже на старте разработки GenAI. Известен метод, который, как утверждается, использовался при обучении ChatGPT. Считается, что именно ему чат-бот от OpenAI обязан своим успехом. 

Этот метод предусматривал проведение обучения LLM-модели с обратной связью от человека. Человек мог корректировать результат с точки зрения точности соответствия вопроса и ответа. Оценке подвергались не только ответы самой LLM-модели, но также и неточности при формулировке вопросов. Если в них содержалась двусмысленность, то ошибкам в ответах LLM назначался более высокой вес. Это выглядело «по-человечески».

В ходе обучения также предпринимались попытки перепроверять ответы LLM-модели, которые были признаны ошибочными. Тем самым, происходило обучение для работы механизмов коррекции. Поэтому если «степень уверенности в правильности» при подготовке ответа не повышается, остаются «сомнения» на уровне алгоритма, то LLM-модель обучалась, как выходить из этой ситуации и искать другие варианты. 

Собственно так появляются «нелепые» ответы в работе GenAI. Все как у людей.

Использовали и другой способ при обучении LLM, направленный на исправление ошибок. Он состоял в следующем: при обучении один и тот же вопрос задавался по несколько раз, но с разными формулировками. Затем оценивались ответы. Подобный метод оказался эффективным, потому что у LLM отсутствуют эмоции, как у человека, у которого повторный аналогичный вопрос вызывает раздражение.

 

Рисунок 6. Ответ GigaChat зависит от формулировки вопроса

Ответ GigaChat зависит от формулировки вопроса

 

Исследователям еще предстоит понять, почему некоторые странности в ответах LLM выглядят очень похожими на то, как бы вел себя человек. Например, из теории проведения опросов общественного мнения известно, что ответы респондентов в общей массе сильно зависят от формулировки вопроса. Ведь то же самое демонстрирует и ИИ. Один и тот же по смыслу, но заданный с разными формулировками вопрос всегда дает не только разные ответы, но и разные акценты в них. 

Как добиться правильного ответа от GenAI

Практика работы с GenAI показывает, что обучение LLM продолжается на стадии ее эксплуатации. При поиске ответа ИИ сначала делает различные предположения. Они не сформулированы четко в вопросе, но могли подразумеваться. Опираясь на них, запускается процесс генерации ответов.

Например, известно, что ChatGPT склонен связывать то, о чем его спрашивают, с США, даже если в вопросе нет прямого указания на это. Поэтому даже в вопросах, где человек по контексту понимает, что его спрашивают о более экзотических местах, ChatGPT все равно дает ответы о Соединенных Штатах.

Мы провели аналогичный тест с GigaChat, задав ему «редкий» вопрос. Поскольку процесс генерации ответа отчасти виден через UI, можно было наблюдать, что ИИ пытался сформулировать ответ. Он даже успевал вывести пару значимых строк, но потом выдавал «дежурную» фразу об «отсутствии собственного мнения». 

Наши настойчивые повторы того же вопроса позволили получить приемлемый ответ только с четвертой попытки. Это указывает на то, что если полученный от ИИ ответ «не устраивает» его алгоритм, то многократным повтором вопроса можно добиться решения.

 

Рисунок 7. Попытки заставить GigaChat подумать

Попытки заставить GigaChat подумать

 

Отметим, что каждая GenAI-модель наделена собственной логикой в выборе компромисса. Например, в блогах мы встречали сообщение, что одна группа исследователей использовала ASCII-арт (многострочный набор символов, из которых выстроена «графическая» конструкция с определенными словами), чтобы задавать «опасные» вопросы. Например, они спросили, как сделать бомбу, и LLM ответила им подробной инструкцией, «прочитав» ASCII-арт.

Мы тоже попробовали задать GigaChat «провокационный» вопрос: помочь написать компьютерный вирус. Оказалось, что его система защиты более строгая. После трех анонимных попыток GigaChat отказался рассматривать от нас другие вопросы, потребовав обязательной авторизации.

 

Рисунок 8. Желающих задавать провокационные вопросы GigaChat попросит оставить свой номер телефона

Желающих задавать провокационные вопросы GigaChat попросит оставить свой номер телефона

 

Критическая значимость ошибок GenAI

Ошибки в работе традиционных компьютерных программ возникают на уровне логики и часто являются следствием случайных ошибок, которые вносит сам человек. Например, его опечатки при вводе текста, результаты ошибочного назначения признаков учета данных при хранении. Ошибки могут быть также результатом преднамеренного саботажа, действий злоумышленников или вредоносного кода. Поэтому в компьютерных системах применяются дополнительные меры контроля. Сфера ИБ как раз и отвечает за эти задачи.

Применение GenAI в будущих программных системах может сильно изменить этот процесс, внести элемент непредсказуемости. Поэтому при разработке систем потребуется в будущем вводить учет критической значимости для случаев ошибочных действий в коде. Потребуются инструменты для выявления и устранения ошибок. По слухам, такие инструменты уже закладываются в новые версии ОС и программных систем.

Аналогичный подход должен существовать и для систем, где применяется GenAI. Их система контроля ошибок должна соответствовать существующим требованиям к системам, управляемым человеком. Ценность применения генеративного ИИ состоит в том, что новые ИИ-системы будут превосходить существующие аналоги, управляемые людьми, по точности, производительности и эффективности. Поэтому их система контроля ошибок должна отражать эти изменения.

Необходимо также учесть, что на бытовом уровне до сих пор применяется контекстно-зависимый подход к оценкам ошибок. Например, если в аварию попадает беспилотный автомобиль, то многие воспринимают это как катастрофическое явление. В то же время автомобили, управляемые людьми, попадают в аварии значительно чаще, но это вызывает значительно меньше публичного внимания.

Подтверждением этих слов может служить видео, опубликованное в начале марта YouTube-блогером Марком Робером. Он решил испытать алгоритмы автопилота Tesla Autopilot, основанные на GenAI, в реальных условиях. Робер выстроил на дороге фальшивую стену из прозрачной тканевой конструкции, за которой расположил манекен ребенка. После этого он сел в автомобиль Tesla, включил автопилот и на скорости около 70 км/ч поехал в сторону преграды.

В тестах использовалась серийная модель Tesla Model Y, где, как заявил Илон Маск, «решены проблемы автономности, система может масштабироваться быстрее конкурентов, поскольку ее система зрения и разработанная нейронная сеть могут идеально адаптироваться к любой дороге».

 

Рисунок 9. Автопилот Tesla Model Y на базе нейронной сети не сумел предотвратить аварию с фальш-стеной

Автопилот Tesla Model Y на базе нейронной сети не сумел предотвратить аварию с фальш-стеной

 

Опираясь на достигнутые успехи в развитии нейронной сети для Tesla Autopilot, производители автомобиля Tesla Model Y отказалась от использования традиционной комбинации датчиков, включающей в себя камеры, радары, лидары и ультразвук. Они оставили только камеры и добавили развитую, хорошо обученную ИИ-систему управления. Опираясь на результаты собственных тестов, производитель заявил, что система автономного управления автомобилем достигла «пятого уровня автономности», т.е. она может эксплуатироваться «в любых условиях». Но независимые эксперты продолжали утверждать, что эта система все еще «относится ко второму уровню». Тест Марка Робера был как раз в поддержку этой «любительской» оценки.

Сценарий теста с нарисованной фальшивой дорогой был, очевидно, нереалистичным. Но он может служить иллюстрацией проблем, которые могут возникнуть с ИИ-управлением при использовании в качестве датчиков только камер. В отличие от радаров и лидаров: которые «чувствуют» физическое присутствие объектов, комбинация из камер и ИИ управляется только с учетом «понимания дорожной ситуации». Если встречаются изменения, которые выходят за рамки принятых погрешностей в оценке дорожной ситуации, то автопилот принимает «очевидное» решение. Марк Робер показал его «надежность и безопасность».

 

Рисунок 10. Сравнение работоспособности лидара и автопилота Tesla Model Y в различных погодных условиях

Сравнение работоспособности лидара и автопилота Tesla Model Y в различных погодных условиях

 

После публикации этого видео противники «любительских» оценок поспешили заявить, что в тестах не использовалась последняя версия Tesla Autopilot HW4. Известно, что начиная с 2025 года, производитель стал снова устанавливать радарный блок внутри салона. Он предназначен, например, для исключения ситуаций присутствия ребенка или животного в закрытом салоне. 

В то же время внешние радары для контроля дорожной обстановки перестали устанавливаться с конца 2023 года. Тогда Илон Маск заявил об их ненужности. Обоснованием служило то, что водители успешно справлялись раньше с вождением в любых дорожных ситуациях. Теперь, благодаря повышению качества оптического «зрения» за счет ИИ, использование радаров стало избыточным. Ошибка это или нет, предстоит выяснить автолюбителям на собственном опыте.

 

Рисунок 11. Новый радар в Tesla Model Y (2025) не предназначен для контроля дорожной ситуации

Новый радар в Tesla Model Y (2025) не предназначен для контроля дорожной ситуации

 

Ранее также сообщалось, что команда Дональда Трампа рассматривала возможность освободить Маска от декларации сведений для государственной контрольной службы NHTSA (The National Highway Traffic Safety Administration), через которые проходит согласование применения функций Tesla Autopilot и системы FSD (Full Self-Driving). 

Откажутся ли люди от GenAI-систем из-за их ошибок?

В рассматриваемой области есть существенная проблема. Инциденты, которые связаны с ошибочными действиями людей, носят случайный характер и реже повторяются, т. к. люди стремятся не допускать новых нарушений. В то же время инциденты, связаннее с применением GenAI, априори являются серийными, потому что ИИ не имеет чувств и не склонен к саморефлексии. Это ведет к тому, что количество инцидентов, связанные с ошибками ИИ, будут возрастать, если не будет разработана и внедрена система контроля и исправления ошибок в их работе.

Приведем еще один пример использования ИИ — в системе заказов в сети ресторанов McDonald’s. Начиная с 2020 года, там стали применять ИИ-систему для размещения заказов. Разработка была выполнена в партнерстве с IBM. 

Ошибки в ее работе не замедлили себя ждать. Блогеры стали сообщать, то о получении заказа из девяти чашек чая вместо одной, то о получении заказа с добавлением бекона к мороженому. После серии таких скандальных видеороликов в прошлом году было решено отказаться от использования этой ИИ-системы и возврату к размещению заказов через человека.

Хайп пройдет и все откажутся от ИИ? Вряд ли. Конкуренты «Макдональдса», такие как White Castle и Wendy’s, сразу же поспешили сообщить о своих успехах по части автоматизации работы с заказами. Поэтому никто не собирается отказываться от ИИ, но тема своевременного выявления ошибок в работе ИИ-систем остается актуальной.

Генеративный ИИ и его ошибки в сфере кибербезопасности

Существует заметный контраст между потребностью в автоматизации, которую мог бы удовлетворить GenAI, и готовностью компаний внедрять машинное обучение и генеративный ИИ для обеспечения кибербезопасности. Если говорить в общем, то прежде всего высказываются опасения относительно конфиденциальности данных, сохранения репутации, соблюдения требований законодательства или охраны интеллектуальной собственности. Существенную роль играет влияние GenAI на качество и производительность работы.

Некоторые вендоры внедряют ИИ-помощников в SIEM-системы и другие защитные инструменты, однако большинству трудно представить себе, например, реагирование с помощью ИИ – во всяком случае, на нынешнем этапе развития. В контексте обеспечения ИБ возможные ошибки GenAI особенно значимы и могут представлять критическую опасность. Даже в тех случаях, когда реагирование на инциденты выполняется силами экспертов-людей, есть немало историй, когда заказчик остаётся недоволен оказываемым воздействием на инфраструктуру. Бесконтрольная же деятельность ИИ-агента на критически важных активах может оказаться попросту разрушительной.

Не следует забывать и о том, что GenAI-модели подвержены рискам раскрытия данных. Применение чат-ботов общего пользования для обработки конфиденциальной информации может приводить к ошибочному разглашению сведений, имеющих важное значение для компании. Поэтому, как отмечали эксперты в эфире AM Live, применение ИИ для обеспечения кибербезопасности ограничено: во избежание утечек нужно пользоваться своими, внутренними моделями. 

Отметим, что разработчики GenAI знают об этих проблемах и ищут решения, стремясь добиться доверия пользователей к GenAI и сделать его применение безопасным. 

Выводы

ИИ уже нашел применение для различных прикладных задач. Его успех связан с быстрым получением требуемого результата. Но при этом важно, что когда контент создает человек, можно объяснить возникающие ошибки и принять меры, препятствующие повторению ошибок в дальнейшем. В то же время у GenAI причины ошибок могут быть спрятаны глубоко внутри «чёрного ящика», а отсутствие человека в цепочке ведет к тому, что присутствие ошибок будет выявляться по факту возникновения инцидентов. Это создает высокий риск и открывает возможности для будущих кибератак.

Полезные ссылки: 
AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новые статьи на Anti-Malware.ru