Машинное обучения и искусственный интеллект в информационной безопасноти

...

Применение технологий машинного обучения и искусственного интеллекта в ИБ

Искусственный интеллект, нейросети, машинное обучение — в контексте информационной безопасности эти термины сегодня звучат все чаще. В среде ИТ нередкими стали разговоры о нарастающей конкуренции между людьми и машинами. Но есть ли примеры применения этих технологий с явным эффектом? Какие решения уже готовы для использования в ИБ, а что еще должно дозреть? Поиск ответов на эти вопросы стал задачей одной из тематических секций форума по практической информационной безопасности Positive Hack Days 8.

Введение
Технологии расширяют возможности специалистов по защите
Как решается проблема актуальности данных об уязвимостях
Эффективность возможна не только в облаке
Выводы

Введение

Некоторые эксперты уверены, что применение технологий машинного обучения и искусственного интеллекта в сфере информационной безопасности — это вопрос оттачивания практики использования новых инструментов и подбора нужных весов и порогов, при которых данная функциональность активируется в продуктах для обеспечения информационной безопасности. Эльман Бейбутов (IBM) полагает, что важно не собрать как можно больше данных — их и так вокруг очень много, а понять, как их правильно структурировать и обрабатывать, чтобы автоматизированные инструменты защиты работали эффективно. И этот процесс можно ускорить, если использовать подходы, ранее отточенные в других областях. К примеру, в IBM сегодня создан целый ряд ИБ-продуктов, которые используют мощности суперкомпьютера Watson. Изначально этот проект запускался для сферы здравоохранения, но сегодня это уже не столь важно — Watson умеет структурировать данные, и системе уже не так важна конкретная отрасль ее применения.

Существуют ли реальные применения этого подхода? Да. Например, разработанная IBM система может брать информацию из инцидента (какой-то его артефакт), отправлять ее в облако, получая в ответ информацию о том, где и когда он встречался ранее, а также набор рекомендаций по дальнейшему анализу (скажем, как инцидент может повториться). Это позволяет выявлять трояны и ботнеты, которые могут в будущем участвовать в атаке, аналогичной уже осуществленной.

Технологии расширяют возможности специалистов по защите

По мнению Жака ван Зейла (Microsoft), основной плюс новых технологий в сфере информационной безопасности заключается в том, что они значительно расширяют возможности работающих в отрасли специалистов. К примеру, по статистике Microsoft, 96% зловредного софта проявляет активность однажды, а случаев, когда зловред атакует свыше тысячи раз, всего 0,01%. Выделить из миллиардов сигналов и огромных массивов разноформатных данных информацию, которая реально важна для отражения атаки, крайне сложно. Человек потратит на такой анализ слишком много времени. И напротив, встроенная в Windows Defender система машинного обучения может проводить поведенческий анализ миллиардов сигналов каждый день.

Это позволяет значительно сократить время реагирования на инциденты. Так при атаке на обычного пользователя Windows (например, с целью установки майнера в браузер), система распознает и блокирует ее за миллисекунды, а атаку на компанию enterprise-уровня система обнаруживает за несколько секунд. В итоге на каждый экземпляр зловредного софта, проанализированный экспертом компании, существующая система на базе Machine Learning и Artificial Intelligence обеспечивает защиту еще от 4500 зловредов.

Как решается проблема актуальности данных об уязвимостях

Помогают машинное обучение и искусственный интеллект и в деле решения проблемы поддержания актуальности информации о киберугрозах. Сооснователь проекта Vulners.com Игорь Булатенко называет уязвимости воротами, открывающими путь к успешной атаке. А поскольку закрыть все такие ворота и двери одновременно нельзя, следует думать о том, какие ошибки необходимо исправлять в первую очередь.

Сегодня для определения критичности уязвимостей используют различные схемы подсчетов (например, CVSS) и калькуляторы. Все они не учитывают человеческий фактор, который может оказывать серьезное влияние. То, какие данные будут введены в калькулятор подсчета CVSS score, зависит от человека, который, как показывает практика, может быть подвержен влиянию извне. Например, если какую-то уязвимость активно обсуждают в медиа, то такая угроза может ему казаться более серьезной, или наоборот — недостаток информированности приведет к недооценке. Кроме того, вряд ли человек будет проводить повторный анализ спустя время.

В результате возникают ситуации, как это было в случае уязвимости HeartBleed, чья базовая оценка CVSS изначально составляла всего лишь 5 из 10. При этом практически мгновенно стали появляться эксплойты для ее использования — а значит, с самого начала риск был куда выше. Если доверить подсчет баллов CVSS обученной модели, то таких проблем можно избежать и получить постоянно обновляющуюся в зависимости от новых данных оценку критичности в данный момент.

Эффективность возможна не только в облаке

Не меньшую эффективность технологии машинного обучения могут продемонстрировать и применительно к задачам защиты критической инфраструктуры, ставшим суперактуальными в последние годы. Однако в данном контексте, в отличие от облачной модели, описанной Жаком ван Зейлом, используются локальные решения, которые не передают данные во внешний мир. По словам Александра Чистякова и Андрея Лаврентьева («Лаборатория Касперского»), типичный промышленный объект генерирует до 10 тысяч сигналов в день (данные с сенсоров и т. п). Это большой, весьма зашумленный поток данных. Однако тот факт, что все данные коррелированы и базируются на законах физики, можно использовать для создания автоматизированных средств защиты, уверены эксперты. Ведь если атака на один элемент индустриальной системы влияет на сигналы, генерируемые другими, то системы машинного обучения здесь могут «выучить» взаимосвязи между сигналами и генерировать предсказания о том, как изменение в одном из них повлияет на другой.

Выводы

Тем не менее практические попытки применить технологии Machine Learning и Artificial Intelligence для решения некоторых задач по защите информации буксуют. Например, создание решения по выявлению аномалий в трафике и поведении пользователей программных продуктов на базе технологий ML и AI в рамках подразделения SOC «Инфосекьюрити» оказалось сопряжено с различными проблемами. И одна из основных — огромный объем данных, которые необходимо проанализировать в сети достаточно крупной компании. Директор центра расследования инцидентов «Инфосекьюрити» Сергей Рублев подчеркнул, что для того чтобы работа имела смысл, анализировать необходимо терабайты данных, которые крайне зашумлены. Реализовать по-настоящему эффективный подход к фильтрации экспертам пока не удалось, и с такими проблемами, по его мнению, столкнется любой разработчик «умных» ИБ-решений на базе новых технологий, так как готовых моделей для решения этой задачи на сегодняшний момент не существует.

Полезные ссылки:

Защита веб-приложений: мифы и реальность

Обзор методов беспарольной аутентификации

Даркнет - темная сторона интернета