Обзор защищённых платформ и накладных средств безопасности больших данных (Big Data)

...

Большие данные (Big Data) отличаются объёмом, скоростью приёма и разнообразием, однако к ним не всегда можно применить стандартные системы защиты. Исключение составили разве что системы резервного копирования. И такие средства начали появляться — в виде как наложенных систем, так и встроенных в сами платформы обработки больших данных, будь те физическими, виртуальными или облачными.

Введение
1. 1.1. Специфика защиты больших данных
2. 1.2. Рождение стандартов
Мировой рынок средств защиты больших данных (big data protection)
Российский рынок средств защиты больших данных (big data protection)
Средства защиты данных от несанкционированных изменений и вредоносных программ
1. 4.1. Kaspersky Security для систем хранения данных
Средства резервного копирования и восстановления
1. 5.1. IBM Cloud Backup
2. 5.2. Veeam Backup & Replication
3. 5.3. «Акронис Защита Данных»
Средства криптографической защиты
1. 6.1. Dataguise DgSecure
2. 6.2. Micro Focus Voltage SecureData
3. 6.3. Thales CipherTrust Data Security Platform
4. 6.4. Zettaset XCrypt
Средства управления правами пользователей
1. 7.1. BlueTalon Policy Engine и Audit Engine
2. 7.2. Informatica Data Masking
Защищённые платформы и облачные сервисы
1. 8.1. ConFluent
2. 8.2. DEAC
3. 8.3. HPE Ezmeral Data
4. 8.4. Oracle Big Data Appliance
5. 8.5. SAP S/4HANA
6. 8.6. «Триафлай»
NGFW
1. 9.1. VMware NSX Service-defined Firewall
Выводы

Введение

На рубеже «нулевых» и «десятых» на рынок буквально ворвалась технология обработки больших объёмов данных, причём данных неструктурированных, в отличие от тех, что хранятся в реляционных СУБД. Уже в 2010 году, практически сразу после появления пригодных для практической работы аналитических ядер, начались результативные проекты. Первой успешно решённой задачей стала автоматизация мониторинга прессы и новых медиа, причём производительность выросла даже не в разы, а на порядки. Розничная сеть Walmart использовала эти ядра для планирования ассортимента. Кинотеатры Disney и «КАРО Фильм» верстали расписание сеансов. Хунта (администрация) испанской области Кастилия и Леон применяла анализ больших данных для сбора информации о людях, которым предстоит выход на пенсию. Эффектной демонстрацией возможностей анализа больших данных стала победа суперкомпьютера Watson в телеигре Jeopardy! (на нашем телевидении — «Своя игра»), причём соперниками стали два чемпиона.

При этом первые проекты делались на периферии компаний, что называется, на коленке. Применялось устаревшее или неиспользуемое оборудование, из которого и создавались кластеры, где разворачивался Hadoop или какое-то другое аналитическое ядро. Этот процесс занимал совсем немного времени, и после этого можно было начинать обрабатывать данные, которые находились как внутри компании, так и вне её. Однако, как это часто бывает, разработчики подошли к защите по остаточному принципу, что привело к массе издержек и проблем, когда число пользователей превысило некую критическую массу.

Специфика защиты больших данных

Прежде всего, на ранней стадии развития аналитических ядер не было изначально предусмотрено разграничение прав пользователей и их групп на том же уровне, который предлагали традиционные серверы баз данных. Hadoop и другие популярные ядра с точки зрения безопасности ничем не отличались от персональных плоскофайловых СУБД вроде FoxPro, Access, Paradox, LibreOffice Base. Соответственно, внешний инструментарий вроде IDM также был неработоспособен.

При этом традиционные средства защиты крайне плохо учитывали специфику больших данных — прежде всего то, что источники последних могли находиться не только внутри корпоративной сети, но и вне её. К тому же источников может быть намного больше, чем таблиц, где хранятся структурируемые данные. Другой серьёзной проблемой является то, что значительная часть данных, с которыми работает аналитика, сохраняют актуальность весьма короткое время и, соответственно, их резервирование и защита после потери актуальности нецелесообразны. С другой стороны, часть данных необходимо хранить долго в силу иных причин, например регуляторных. В то же время отсутствовали многие виды угроз, характерных для реляционных СУБД, вроде SQL-инъекций.

Также была недооценена проблема 3V (Volume — объём, Velocity — скорость поступления, Variety — разнообразие). Острой стала проблема проверки целостности, достоверности и отсутствия вредоносных признаков в данных, которые поступали из разных источников. Однако, стоит отметить, антивирусные средства и системы резервного копирования, по крайней мере корпоративного класса, вполне справлялись со своими задачами, хотя там и были определённые нюансы в настройке.

И, наконец, по мере того как росло количество пользователей усовершенствованной аналитики, многократно увеличился риск утечки данных. «Этот новый тип данных сам мог бы вызвать утечку информации, может привести к таким огромным юридическим последствиям и потерям доверия, с которыми мы ещё не сталкивались», — говорилось в корпоративном блоге компании Panda. И этот риск оказался не просто чем-то умозрительным. В отчётах компаний Gemalto и InfoWatch по итогам 2016 года многократный рост утечек прямо связывался с увеличением количества проектов по анализу больших данных и лавинообразным ростом количества тех, кто имел доступ к аналитическим инструментам.

Вопросы безопасности впервые были подняты в начале 2015 года. Как раз тогда впервые в публичном поле начались разговоры об ужесточении нормативов связанных с обработкой персональных данных, которые привели в итоге к появлению европейского регламента GDPR и законодательных актов ряда американских штатов, в частности Калифорнии. Появились отраслевые нормативы, прежде всего там, где особенно высока цена утечки (медицина, страхование). Учитывая то обстоятельство, что системы аналитики с использованием технологий обработки больших данных наиболее активно применялись как раз для анализа клиентского опыта, замаячила перспектива того, что использование уже зарекомендовавших себя средств может быть если не полностью запрещено, то серьёзно ограничено. В итоге началась работа над совершенствованием встроенных средств защиты или адаптацией уже имеющихся инструментов.

Рождение стандартов

И уже в самом начале 2015 года была представлена инициатива Open Data Platform (ODPi). Главной её целью было устранение фрагментации и ненужной конкуренции между дублирующими друг друга решениями на базе самого популярного ядра с открытым кодом Apache Hadoop, на базе которого разрабатывал свои решения целый ряд компаний. В ODPi практически сразу вошли такие компании, как EMC, GE, Hortonworks, IBM, Infosys, Linaro, Pivotal, SAS, Splunk, Toshiba, Verizon, VMware. В рамках ODPi был разработан набор спецификаций, который включал в себя также требования ко средствам администрирования, где были устранены многие проблемы ранних версий. И в целом средства управления пользователями приблизились к тем, которыми располагали традиционные серверы реляционных СУБД.

Ещё более фундаментальная работа была проведена Национальным институтом стандартов и технологий США. В декабре 2015 года был утверждён фреймворк NIST Big Data Interoperability. В нём вопросам безопасности уделено особое внимание. За это отвечает раздел «NBDRA Security and Privacy Fabric», который охватывает пять основных интерфейсов взаимодействия с данными, в том числе между провайдерами данных и провайдерами приложений, провайдерами приложений и потребителями данных, провайдерами приложений и платформой работы с большими данными. Также он описывает обеспечение безопасности при внутреннем взаимодействии различных технологий и платформ Big Data и средств управления системой больших данных. Начали появляться и накладные инструменты.

Мировой рынок средств защиты больших данных (big data protection)

Самым большим сегментом рынка является сектор платформ со встроенными средствами защиты. По данным практически всех ведущих агентств, лидерами рынка таких систем являются Oracle (13–14 %), HP (11–12 %), Microsoft (11–12 %) и SAP (около 11 %). Эта «большая четвёрка» контролирует около половины всего мирового рынка ПО для обработки больших данных. При этом доля Oracle имеет слабую тенденцию ко снижению, тогда как позиции SAP, наоборот, укрепляются по мере того, как происходит миграция с SAP R/3 на S/4HANA. Этот процесс несколько затормозился в 2020 году вследствие известных событий, но затем вновь развернулся. Его сдерживают только объективные причины, прежде всего глобальный дефицит консультантов. Есть тенденция к росту и у Microsoft, однако их система Power BI ориентирована на относительно небольшой бизнес и не включает в себя тот набор средств обеспечения непрерывности и защиты данных, который есть у продуктов от HP, Oracle и SAP.

Объём мирового рынка ПО для обработки больших данных в 2021 году по данным IDC составил 82 млрд долларов США. Общий же объём рынка обработки Big Data достиг 215,7 млрд. долл. Наиболее активно применяют такого рода инструментарий банки, предприятия дискретного производства и компании профессиональных услуг. На них приходится треть всего рынка.

Рисунок 1. Общий объём рынка анализа больших данных (источник: IDC)

Реальный запрос на защиту больших данных появился практически сразу, как только подобные системы начали реально использоваться для решения бизнес-задач. Первой этот запрос реализовала Oracle уже в конце 2011 года. Но по-настоящему острой проблема стала в 2015 году, когда возникла перспектива того, что использование систем аналитики безо средств защиты, встроенных или внешних, окажется невозможным или будет существенно ограничено.

Уже в 2016 году американское издание CRN насчитало более 10 реально работающих продуктов и сервисов для защиты больших данных, а также облачных платформ, пригодных для обработки и анализа конфиденциальных данных, оборот которых регулируется государственными органами или отраслевыми организациями. Правда, автор той статьи Рик Уайтинг допустил весьма распространённую ошибку, включив в этот перечень как минимум три продукта (LogRhythm, Protegrity и Sqrrl), которые не защищают среды обработки больших данных, а сами содержат соответствующее аналитическое ядро.

Рисунок 2. Доли сегментов рынка обработки больших данных (источник: Fortune)

Разработчики средств защиты действовали в трёх направлениях. Прежде всего, под специфику сред и платформ обработки больших данных адаптировался традиционный инструментарий (особенно это заметно в таком сегменте, как системы резервного копирования и восстановления, затем к ним присоединились антивирусное ПО и средства криптозащиты; по мере того как универсальное решение становилось пригодным для работы в системах разбора больших данных, узкофокусные редакции выводились с рынка). Создавались специализированные средства, направленные на защиту аналитических систем. И, наконец, появлялись среды и платформы, где были устранены родовые недостатки изначальных версий аналитических ядер. К слову, только HP, Oracle и SAP контролируют без малого 40 % всего сегмента рынка таких платформ.

Однако половина продуктов, о которых писал CRN в 2016 году, была выпущена стартапами, впоследствии поглощёнными более крупными компаниями. Среди них были представители «большой четвёрки» (HP, Microsoft, SAP, Oracle), а также крупнейшие поставщики облачных услуг Amazon и Google. К примеру, BlueTalon была куплена Microsoft, а её продукты — интегрированы в Azure; компанию Sqrrl приобрёл Amazon.

Также рынок до сих пор серьёзно «балканизирован». Например, многие продукты, которые популярны в США и Канаде, Китае, Японии, ориентированы исключительно на домашние рынки и не предлагаются за пределами этих регионов. При этом некоторые из данных решений созданы международными компаниями, давно и успешно работающими на мировом рынке. Среди них, например, Dell и NEC.

В целом же среди международных компаний хотелось бы обратить внимание на следующих игроков:

BlueTalon (часть Microsoft).
ConFluent.
Dataguise.
DEAC.
HP Enterprise.
IBM.
Informatica.
Micro Focus.
Oracle.
SAP.
Thales.
Veeam.
VMware.
Zettaset.

Российский рынок средств защиты больших данных (big data protection)

Российский рынок весьма активно развивался все эти годы. Внедрение аналитических систем началось практически одновременно с остальным миром, и темпы роста как минимум не уступали среднемировым (в мире CAGR за последние 10 лет составил 13 %, в России, по большинству оценок, — порядка 15 %). Согласно результатам совместного исследования IDC и Hitachi Vantara, проведённого в 2019 году, более 55 % российских компаний со штатом в 500 и более человек выделяют бюджет на внедрение технологий обработки больших данных.

Среди российских вендоров, которые по состоянию на 1 января 2022 года либо адаптировали свои продукты под специфику сред обработки больших данных и в явном виде об этом сообщили, либо разработали защищённые платформы, необходимо отметить три компании:

«Доверенная среда» (ГК «Систематика»).
«Киберпротект» (бывший «Акронис Инфозащита»).
«Лаборатория Касперского».

Тем не менее были и во многом остаются весьма серьёзные факторы сдерживания. Среди них называют прежде всего нехватку кадров. Серьёзной проблемой является также избыточное регулирование. В частности, даже в таком строгом регламенте, как европейский GDPR, применение технологий маскирования выводит данные из категории персональных, но в российских условиях этого недостаточно. Обезличенные данные всё равно будут считаться персональными. Это тормозит внедрение технологий обработки больших данных в финансовом секторе, телекоммуникационных компаниях, сфере розничной торговли. При этом на «серый» и тем более чёрный рынок данных эти ограничения никак не влияют. Однако уточнения в российское законодательство уже подготовлены и, как заявил заместитель министра цифрового развития Александр Шойтов на конференции «Инфофорум 2022», в середине года ожидается их принятие. Так или иначе, названное обстоятельство не мешает активному внедрению технологий больших данных в промышленности, как обрабатывающей, так и добывающей, а также в сфере государственного управления. Не менее остро ощущается проблема нехватки мощностей для обработки больших массивов данных. Например, по сведениям Ассоциации больших данных, площадь коммерческих ЦОД в России на три порядка меньше, чем в США.

Оценки объёмов российского рынка больших данных существенно различаются. Даже у тех экспертов, которые близки к Ассоциации больших данных, они варьируются от 10 до 30 млрд руб. по итогам 2020 года. При этом 40 % занимает цифровая инфраструктура, оставшиеся 60 % практически поровну делятся между технологическими инструментами и сервисами.

С 2018 года начали появляться продукты российских разработчиков, нацеленные на обеспечение безопасности инфраструктуры больших данных. До того активность российских компаний ограничивалась доработкой Apache Knox, если применялись ядра на базе Hadoop. Тут наибольшую активность проявляли такие интеграторы, как «Инфосистемы Джет», «КРОК» и «Ланит». Те, кто мог себе это позволить, применяли решения на базе ПАК от Oracle. Но таких примеров были единицы. По оценке TAdviser, в России насчитывается не более семи инсталляций Oracle Big Data Appliance. Впрочем, два комплекса, которыми владеют компании-интеграторы, весьма активно сдавались в аренду. Решения от SAP использовались куда более интенсивно. К тому же начинается процесс массовой миграции на новую платформу тех, кто до сих пор продолжает использовать прежние версии R/3. Процесс сдерживается лишь количеством свободных специалистов по внедрению.

При этом среди российских разработчиков средств защиты возобладал подход к адаптации традиционных продуктов под среды обработки больших данных. Тут показателен пример «Киберпротекта» (бывший «Акронис Инфозащита») и «Лаборатории Касперского», которые быстрее остальных адаптировали под специфику больших данных свои средства резервного копирования и защиты от вредоносных программ соответственно. В единичном экземпляре представлена и защищённая аналитическая платформа, которая, однако, позиционируется скорее как как BI-система. Однако уже в текущем году запланирован выход коммерческой платформы в рамках «Яндекс.Облака». Не исключено, что нечто похожее выпустит для открытого рынка и SberCloud, тем более что соответствующая система, используемая для внутренних нужд, у «Сбера» есть. Специализированных решений, ориентированных исключительно на защиту аналитических платформ на основе больших данных, отечественные разработчики так и не выпустили.

Средства защиты данных от несанкционированных изменений и вредоносных программ

Этот сегмент представлен единственным продуктом. Его выбор обусловлен тем, что возможность защиты сред обработки больших данных декларирована в явном виде и имеются настройки, которые позволяют минимизировать издержки связанные с использованием других средств антивирусной защиты. Применение других продуктов также возможно, но это может сопровождаться заметным снижением производительности.

Kaspersky Security для систем хранения данных

Комплексное решение для защиты любых типов данных, ориентированное на СХД и любые устройства с поддержкой протоколов ICAP или RPC, включая комплексы от Oracle и SAP. Может интегрироваться в комплексную инфраструктуру Kaspersky Security Network (KSN).

Использует антивирусное ядро «Лаборатории Касперского». Обеспечивает проверку каждого файла при его запуске или изменении на наличие всех видов вредоносных программ. Содержит эвристический анализатор, позволяющий выявлять новые и неизвестные угрозы. Подозрительные объекты могут быть удалены или перемещены в карантин.

Рисунок 3. Схема работы Kaspersky Security для систем хранения данных

Обеспечивается несколько уровней для проверки объектов, что позволяет снизить нагрузку на серверы и исключить «антивирусный шторм» при проверке значительного количества сущностей, что крайне актуально для систем обработки больших данных.

Возможно управление как напрямую, так и удалённо через средства операционной системы или консоль Kaspersky Security Center. Есть встроенные средства управления полномочиями администраторов.

Основные достоинства Kaspersky Security для систем хранения данных:

Составная часть хорошо известного комплексного антивирусного решения.
Имеет полный набор сертификатов от российских регуляторов.
Гибкое управление, позволяющее снизить нагрузку в условиях быстро меняющегося содержимого томов на СХД.
Поддерживает проприетарное API для систем NetAPP, что позволяет детектировать вредоносные программы и пресекать попытки удаленного шифрования.

Подробнее с продуктом можно ознакомиться на сайте компании.

Средства резервного копирования и восстановления

В этом разделе представлено три продукта, из которых один отечественный. Критерием отбора тут также стала заявленная вендором возможность работы со средами и платформами обработки больших данных при отсутствии привязки к оборудованию конкретного производителя.

IBM Cloud Backup

Система резервного копирования и восстановления, основанная на агентах и управляемая с помощью веб-утилиты Cloud Backup WebCC. Несмотря на название, которое предполагает облачную природу продукта, это решение может использоваться и в локальной инфраструктуре.

Рисунок 4. Настройка облачного сервиса резервного копирования в облаке IBM

Поддерживаются резервирование и восстановление данных на 200 ОС и платформах, в том числе унаследованных (legacy). Решение обеспечивает высокий уровень автоматизации операций по резервированию и восстановлению данных между разными площадками, как принадлежащими IBM, так и сторонними. Поддерживается шифрование резервных копий, если данные являются конфиденциальными.

Основные достоинства IBM Cloud Backup:

Поддержка более 200 операционных систем, виртуализационных платформ и приложений.
Поддержка локальных, облачных и гибридных инфраструктур.
Высокий уровень автоматизации операций.
Возможность шифрования «на лету».

Подробнее с продуктом можно ознакомиться на сайте компании.

Veeam Backup & Replication

Эта система резервного копирования и восстановления данных предназначена для широкого спектра потенциальных потребителей, от сектора SOHO до сетей ЦОД и облачных сервисов. Распространяется в виде приложения и облачного сервиса (Backup & Restore-as-a-Service, резервное копирование как услуга). Поддерживается широкий спектр платформ, включая настольные, серверные, физические и виртуальные, а также инфраструктур поставщиков мультиоблачных сервисов (т. н. гиперскейлеров): Amazon, Google, Microsoft, «Сбера», «Яндекса».

Рисунок 5. Интерфейс Veeam Backup & Replication для виртуальных сред VMware

В качестве преимуществ платформы разработчики указывают такие функциональные возможности, как защита от программ-вымогателей (в том числе от повторного заражения), практически безграничные возможности масштабирования, резервирование как внутри инфраструктуры, так и на удалённых площадках. В версии 11A добавили поддержку контейнеров. Встроенная автоматизация даёт возможность регулярного тестирования (целостности данных, антивирусных проверок и других мероприятий) для гарантии возможности восстановления при любых сценариях.

С 2019 года включён в число лидеров рынка по версии Gartner.

Основные достоинства Veeam Backup & Replication:

Высокая масштабируемость.
Встроенные средства защиты от вредоносных программ.
Мощные и гибкие средства автоматизации работы, в том числе операций требующих взаимодействия со внешними системами.
Возможность резервного копирования на внешние площадки.

Подробнее с продуктом можно ознакомиться на сайте компании.

«Акронис Защита Данных»

Одно из старейших отечественных средств резервного копирования, поддерживающее резервирование в инфраструктуре любой сложности, как локальных (on-premise), так и облачных или гибридных средах. Поддерживается в общей сложности 25 программных платформ (ОС и гипервизоров виртуализации), в том числе российского производства. Из ПАК обработки больших данных объявлена поддержка только SAP S/4HANA. В новейшие версии интегрированы средства защиты от программ-вымогателей и криптомайнеров, модуль тестирования на уязвимости.

Лицензирование «Акронис Защиты Данных» может проводиться как по объёмам хранения, так и по числу устройств. Предусмотрен льготный переход для пользователей конкурирующих решений.

Рисунок 6. Создание плана защиты в «Акронис Защите Данных»

Резервные копии также могут храниться как внутри компании, так и на внешних ресурсах, включая специально созданный вендором ресурс IT-Lite, который располагается в ЦОД класса TIER III. Данные туда передаются по защищённому каналу. Поддерживаются дедупликация и встроенные средства компрессии файлов резервных копий. Именно на внешних ресурсах разработчики и рекомендуют хранить резервные копии аналитических систем, использующих большие данные.

Основные достоинства «Акронис Защиты Данных»:

Поддержка большого количества платформ, включая виртуальные и облачные.
Гибкая ценовая политика, адаптированная для всех категорий заказчиков.
Решение сертифицировано ФСТЭК России.
Встроенные средства защиты от вредоносных программ.

Подробнее с продуктом можно ознакомиться на сайте компании.

Средства криптографической защиты

Использование неадаптированных ко средам обработки Big Data систем криптозащиты чревато целым рядом сложностей и неудобств. Во-первых, их использование существенным образом может влиять на общую производительность. Во-вторых, могут потребоваться дополнительные дисковые ёмкости для хранения шифруемых данных, а это — ценный и весьма дорогостоящий ресурс. Три продукта из данного раздела лишены этих недостатков. Также один из них помимо шифрования имеет дополнительную и крайне востребованную функцию маскирования данных; для России она пока неактуальна, но уже совсем скоро станет полезной. Система от Thales дополнительно включает в себя ещё и средства управления правами доступа.

Dataguise DgSecure

Комплексное решение, ориентированное на обеспечение безопасности данных, прежде всего персональных и платёжных, вне зависимости от их природы (структурированные, неструктурированные). Может интегрироваться в различные бизнес-приложения, включая СУБД, системы автоматизации бизнес-процессов, корпоративные порталы, системы электронного документооборота, аналитические платформы. Система ориентирована на крупные компании с распределённой инфраструктурой, а также поставщиков облачных услуг, в том числе гиперскейлеров: AWS, Google, Microsoft.

Содержит инструменты маскирования и шифрования. Позволяет проводить аудит систем на соответствие стандартам, включая PCI DSS и GDPR. В 2018 году в продукты были внесены значительные усовершенствования. В частности, улучшены механизмы изоляции для мультиарендных сред, в планировщик включены процедуры связанные с соблюдением GDPR, а встроенный журнал событий переработан для упрощения интеграции с SIEM и прочими системами мониторинга ИБ.

Рисунок 7. Установление прав доступа с помощью DgSecure

Основные достоинства Dataguise DgSecure:

Возможность работы в сложных распределённых инфраструктурах.
Возможность интеграции с различными приложениями и платформами.
Встроенные средства аудита на соответствие основным национальным и отраслевым стандартам.

Подробнее с продуктом можно ознакомиться на сайте компании.

Micro Focus Voltage SecureData

Voltage SecureData позволяет защищать как данные, так и каналы взаимодействия со внешними облачными сервисами. Особо отмечается возможность работы в условиях мультиоблачных и гибридных сред. При этом методы шифрования сохраняют связи с незащищёнными данными и могут собирать новые сведения, значительно снижая риск утечки информации или несоблюдения законодательства о конфиденциальности. Voltage SecureData также позволяет обезличивать данные, делая их бесполезными для злоумышленников и сохраняя при этом их удобство использования, полезность и ссылочную целостность. Вместе с тем данная функция для российских условий пока бесполезна, поскольку отечественное законодательство о защите персональных данных всё ещё приравнивает обезличенные данные к персональным. SecureData интегрируется в аналитические платформы Vertica, Teradata и различные экосистемы на базе Hadoop.

Вендор гарантирует соответствие европейским и американским регламентам по защите персональных данных, включая GDPR, CCPA (California Consumer Privacy Act, закон штата Калифорния о защите личных данных потребителей) и HIPAA (Health Insurance Portability and Accountability Act, федеральный закон США о мобильности и подотчётности медицинского страхования). Это достигается за счёт обезличивания данных. Инструментарий от Micro Focus позволяет в полностью автоматическом режиме находить и классифицировать конфиденциальные данные, централизованно применять правила работы с ними, шифровать и маскировать их, фиксировать отдельные операции и формировать отчёты. Также, по данным вендора, использование этого инструментария снижает стоимость сертификации и послесертификационного аудита на соответствие стандарту PCI DSS на 85 %.

Рисунок 8. Панель управления Micro Focus Voltage SecureData

Основные достоинства Micro Focus Voltage SecureData:

Возможность работы в мультиоблачных и гибридных средах, поддержка основных популярных ядер и экосистем для работы с большими данными.
Содержит встроенные средства классификации данных.
Обеспечивает соответствие целому ряду международных, национальных и отраслевых стандартов по защите данных.
Шифрование данных без необходимости регулярной дешифровки.
Обеспечивает безопасную токенизацию без состояния (Secure Stateless Tokenization, SST) для некриптографической защиты данных с высоким уровнем производительности, безопасности и масштабируемости.

Подробнее с продуктом можно ознакомиться на сайте компании.

Thales CipherTrust Data Security Platform

Thales — один из ведущих мировых поставщиков средств криптозащиты информации. В продуктах для гражданского рынка собственные разработки компании сочетаются с решениями купленной ею фирмы Gemalto, которая, в свою очередь, до поглощения приобрела SafeNet, также известного в прошлом игрока. Позволяет защищать любые типы данных. Поддержка новых аналитических платформ появилась практически сразу после того, как использование технологий обработки Big Data стало популярным. Последняя версия платформы Thales CipherTrust Data Security помимо СКЗИ содержит средства маскирования данных и управления правами пользователей.

CipherTrust Data Security Platform предоставляет инструментарий для блокирования как внешних, так и внутренних угроз информационной безопасности, а также для выстраивания процедур постоянного контроля данных, в том числе расположенных в облаках. Платформа построена на микросервисной архитектуре. Может поставляться в виде физического программно-аппаратного комплекса или преднастроенной виртуальной машины.

Рисунок 9. Аппаратный комплекс Thales CipherTrust Manager

Основные достоинства Thales CipherTrust Data Security Platform:

Отсутствие влияния на производительность, простота внедрения.
Защита любых типов данных.
Управление жизненным циклом ключей шифрования, контроль доступа ко ключам и политикам на основе ролей.
Внутренний и внешние удостоверяющие центры.
Аппаратное и виртуальное исполнение.

Подробнее с продуктом можно ознакомиться на сайте компании.

Zettaset XCrypt

Это программно определяемое решение для шифрования данных, не требующее приобретения дополнительного оборудования, является одним из старейших адаптированных для платформ анализа больших данных. Первая версия появилась ещё в 2009 году, почти сразу после выхода первой пригодной для практического применения версии ядра Hadoop. В настоящее время функциональность Zettaset Big Data Encryption Suite полностью включена в базовый продукт Zettaset XCrypt.

Рисунок 10. Архитектура Zettaset XCrypt

В качестве основных преимуществ решения от Zettaset называют низкий уровень начальных затрат при внедрении и отсутствие потребности в квалифицированном персонале. Утверждается, что с обслуживанием справится любой ИТ-администратор средней квалификации. При этом использование данного СКЗИ в минимальной степени влияет на производительность системы. Не потребуется и дополнительных ёмкостей хранения.

СКЗИ от Zettaset могут интегрироваться со всеми популярными платформами обработки больших данных, как локальными, так и облачными.

Основные достоинства Zettaset XCrypt:

Минимальное влияние на производительность.
Не требуются дополнительные ёмкости хранения данных.
Возможность интеграции с любыми системами обработки больших данных, в том числе гибридными и мультиоблачными.

Подробнее с продуктом можно ознакомиться на официальной странице.

Средства управления правами пользователей

Классические IdM-системы, ориентированные на традиционные реляционные СУБД, в средах обработки больших данных неработоспособны. Но со временем появились системы, которые позволяют реализовать такие функции и в среде обработки Big Data. Стоит отметить, что функция управления пользователями в целом ряде продуктов не является единственной. Она очень часто сочетается с маскированием данных подпадающих под нормы регулирования, например персональных и платёжных.

BlueTalon Policy Engine и Audit Engine

Эта IDM-система и система мониторинга, ориентированная на платформы обработки больших данных, впервые была представлена в 2013 году. Её использование позволяло получить в средах, где использовались ядра Hadoop и Cloudera, те же возможности по управлению пользователями, что и в традиционных реляционных СУБД. Комплекс тесно интегрирован с другой разработкой той же компании — системой Audit Engine, которая следит за целостностью и качеством данных.

Рисунок 11. Управление правами пользователей с помощью BlueTalon

В 2015 году решения от BlueTalon были сертифицированы Cloudera. В 2016 году Dell EMC использует Policy Engine и Audit Engine для обеспечения безопасности данных и управления ими в своём решении Analytic Insights Module для Big Data. В 2019 году BlueTalon была куплена Microsoft, хотя обе компании сотрудничали и раньше. Так, в 2015 году продукты BlueTalon были интегрированы в Microsoft Azure HDInsight.

Основные достоинства BlueTalon Policy Engine и Audit Engine:

Старейший на рынке продукт для управления правами пользователей систем обработки больших данных.
Возможность использования в инфраструктурах любой сложности.
Тесная интеграция с другими системами.

Подробнее с продуктом можно ознакомиться на его официальной странице.

Informatica Data Masking

Как уже было сказано выше, одной из главных проблем обеспечения безопасности сред обработки больших данных оказалась невозможность организовать разграничение прав доступа с помощью штатного инструментария аналитических ядер. При этом внешние IdM-системы также оказались неработоспособными.

Инструмент от Informatica решает две задачи: контролирует доступ к данным со стороны приложений, пользователей и групп, включая разработчиков, тестировщиков, сотрудников внешних подрядчиков и партнёров, а также трансформирует конфиденциальные сведения в обезличенные, которые не подпадают под нормы законодательства, например по защите персональных данных. Процесс маскирования происходит «на лету» и не оказывает отрицательного влияния на работу и производительность пользователей. Постоянное статическое маскирование может легко масштабироваться для обработки больших объёмов данных в инфраструктуре любой сложности.

Рисунок 12. Методы обезличивания в Informatica Data Masking

При этом поддерживается подключение к различным источникам данных, как структурированных, так и неструктурированных. Решение содержит широкий набор специализированных коннекторов.

Основные достоинства Informatica Data Masking:

Полноценная IdM-система, поддерживающая среды обработки больших данных.
Содержит инструменты для анонимизации и обезличивания персональных данных, адаптированные под нормы GDPR и российского 152-ФЗ.
Поддержка большого количества платформ и аналитических ядер.

Подробности доступны на официальном сайте Informatica и у российского дистрибьютора.

Защищённые платформы и облачные сервисы

Данный сегмент является наиболее представительным, что легко объяснимо. Платформы обработки больших данных с улучшенной защитой появились раньше внешних систем защиты. К тому же, помимо прочего, некоторые из них представлены солидными крупными игроками, за покупку у которых точно не уволят.

ConFluent

ConFluent представляет собой корпоративную платформу на основе Apache Kafka. Поставляется в виде виртуального ПАК или облачного сервиса. В России платформу на базе ConFluent предоставляют SberCloud и «Яндекс.Облако».

Поддерживает кластеризацию, причём каждый из элементов кластера может быть изолирован от других. Используется мультиарендная архитектура, когда каждый экземпляр приложения, запущенный на сервере, обслуживает много клиентов (арендаторов), работая одновременно с несколькими конфигурациями и наборами данных. При этом каждый клиент взаимодействует только со своим экземпляром виртуального приложения, видя лишь свою конфигурацию и свой набор данных.

Рисунок 13. Веб-интерфейс ConFluent

Встроенные средства обеспечения безопасности включают в себя шифрование SSL / TLS для всех коммуникаций между отправителями и получателями данных, аутентификацию с использованием криптографического протокола SSL или фреймворка SASL, авторизацию по спискам избирательного управления доступом для детального определения прав клиентов на чтение или запись.

Также поставляется набор коннекторов для интеграции с различными системами обеспечения безопасности, включая UBA и SIEM. Многое зависит и от варианта поставки решения: разные поставщики облачных услуг, в том числе и российские, могут предлагать расширенные варианты по защите размещённой в их инфраструктуре платформы на базе ConFluent. То же относится и к виртуальным ПАК.

Основные достоинства ConFluent:

Кластерное решение с высоким уровнем отказоустойчивости.
Простота интеграции со внешними средствами мониторинга.
Встроенные СКЗИ.
Включает в себя средства контроля и идентификации пользователей, запущенные по умолчанию.

Подробнее с продуктом можно ознакомиться на сайте компании.

DEAC

Сеть европейских ЦОД, соответствующих уровню надёжности TIER III, работающая и в России, предоставляет услуги хостинга, в том числе и больших данных. Предлагает услуги по аккумулированию данных IoT на базе платформ Cassandra или InfluxDB.

Гарантируется защита данных при любых обстоятельствах, включая кибератаки, утечку или потерю данных, геополитические и регуляторные риски, проявления недобросовестной конкуренции, разного рода ограничения, включая локдауны, и прочие форс-мажоры. Инфраструктура заказчика может размещаться на нескольких географически распределённых площадках, соединённых защищёнными каналами связи.

Рисунок 14. Каналы связи между ЦОД DEAC

В сети ЦОД внедрена система отслеживания и контроля, которая содержит не только средства мониторинга целостности файлов, управления уязвимостями, резервного копирования и восстановления (причём от двух вендоров: Veeam и IBM), но и полноценный SOC и даже комплекс защиты от утечек данных.

ЦОДы от DEAC имеют сертификаты PCI DSS и ISO 27001:2013.

Основные достоинства:

Высокий уровень доступности сервисов.
Многоуровневая система защиты, созданная с использованием лидирующих систем от ведущих поставщиков.
Наличие отраслевых и национальных сертификатов.

Подробнее с продуктом можно ознакомиться на сайте компании.

HPE Ezmeral Data

Эта платформа может поставляться как физический программно-аппаратный комплекс или облачный сервис с одинаковыми наборами функциональных возможностей. Представляет собой многоуровневое кластерное решение с высокой степенью отказоустойчивости и масштабирования, предназначенное для работы с разными типами данных, как структурированными, так и неструктурированными.

Модель безопасности HPE Ezmeral Data Fabric встроена в платформу, соответствующий инструментарий включён по умолчанию. Встроенные механизмы безопасности обеспечивают проверку подлинности данных, авторизацию, аудит и шифрование. Механизмы авторизации используют технологию Kerberos. Возможна аутентификация пользователя не только посредством паролей, но и многофакторная, с применением инфраструктуры PKI. Права доступа могут быть ограничены как на уровне всего кластера, так и на уровне отдельных томов.

Рисунок 15. Архитектура HPE Ezmeral

Средства аудита позволяют регистрировать и контролировать действия с объектами и операции в интерфейсе командной строки, включая команды изменяющие настройки кластера. Записи журнала передаются в хранилище событий потоком в режиме реального времени, записываются в формате JSON и могут анализироваться с помощью Apache Drill или во внешней SIEM-системе. Файлы журналов могут храниться в течение заданного промежутка времени.

Также составной частью комплекса является встроенная система контроля привилегированных пользователей (PAM). Возможно и подключение внешних систем контроля, тут HPE Ezmeral ничем не отличается от других инфраструктур на базе Linux.

Основные достоинства HPE Ezmeral Data:

Возможность поставки в виде физического ПАК или облачного сервиса.
Высокий уровень отказоустойчивости, который достигается за счёт кластеризации.
Встроенные средства контроля пользователей, в том числе привилегированных.
Простота интеграции со внешними системами мониторинга.

Подробнее с продуктом можно ознакомиться на сайте компании.

Oracle Big Data Appliance

Первая версия этого ПАК, где появились встроенные системы поддержания непрерывности функционирования, защиты данных и контроля пользователей, была представлена ещё в 2011 году. Это — одно из старейших решений для обработки больших данных с усиленными средствами защиты.

С 2011 года компоненты ПАК, как программные, так и аппаратные, регулярно, со средней периодичностью в 15 месяцев, обновлялись. Вычислительное ядро комплекса составляют 18 серверов, комплекс хранения данных, сетевая инфраструктура Infiniband и Ethernet. Возможна поставка в виде ⅓ и ⅔ этой конфигурации, также допускается и масштабирование вверх. Oracle Big Data Connectors и СУБД Oracle NoSQL Database могут поставляться как отдельные программные продукты вне состава всего ПАК.

Рисунок 16. Архитектура Oracle Big Data Appliance

Возможно развёртывание ПАК и в облаке, в том числе в инфраструктуре Oracle Cloud Platform Autonomous Services, которые могут располагаться и на территории заказчика. В России услуги по доступу к Oracle Big Data Appliance предоставляют интеграторы ФОРС и «Инфосистемы Джет».

Есть примеры того, что Oracle Big Data Appliance использовалась в качестве ядра системы мониторинга информационной безопасности. В России, например, в 2020 году такая система была запущена банком «Открытие». Ещё раньше банк ВТБ использовал этот комплекс в том числе и для задач фродмониторинга.

Основные достоинства Oracle Big Data Appliance:

Быстрое развёртывание за счёт комплексности оптимизированного ПАК.
Существенная экономия на лицензиях.
Возможность работы как в локальной инфраструктуре, так и в облаке.
Высокий уровень отказоустойчивости.
Автоматизация многих операций по обслуживанию и поддержке.

Подробнее с продуктом можно ознакомиться на сайте компании.

SAP S/4HANA

Новая версия платформы SAP была представлена в 2015 году. В отличие от предыдущих, которые работали исключительно поверх реляционных СУБД, новая содержит ещё и аналитическое ядро, которое может работать со всеми видами данных, находящихся как внутри корпоративного контура (в том числе собираемых с промышленного оборудования и устройств IoT), так и вне его.

SAP S/4HANA представляет собой кластер из физических и виртуальных серверов. Выбор оборудования возможен из весьма широкого спектра сертифицированных систем, включая серверы и СХД. Он может размещаться как внутри корпоративной сети, так и в облаке, публичном (поддерживаются Amazon AWS и Microsoft Azure) или частном. При этом в каждой из стран присутствия SAP локализует облачные ресурсы, не только своими силами, но и с привлечением партнёров. Россия не стала исключением: в сентябре 2020 года ФСТЭК России сертифицировала облачные решения SAP Marketing Cloud и SAP S/4HANA, размещённые в локальном российском облаке, на 5 лет.

Рисунок 17. Веб-интерфейс SAP S/4HANA

Механизмы обеспечения безопасности и отказоустойчивости включают в себя аварийное восстановление данных, сохранение резервных копий, разграничение прав доступа к информации, управление доступом и идентификацией. Все они существенно переработаны по сравнению с предыдущими версиями. Вместе с тем с точки зрения пользователя процедуры настройки будут едиными, вне зависимости от типов данных, с которыми работает система. Значительная часть операций может быть автоматизирована, как с помощью встроенных средств (см. наш материал «Обеспечение безопасности ERP-систем SAP на примере решения SafeERP Suite»), так и внешних, включая RPA. Возможно также использование накладных средств защиты. Например, заявлена полная совместимость с инфраструктурой SAP S/4HANA у как минимум трёх продуктов Fortinet, включая NGFW FortiGate, WAF FortiWeb и песочницу FortiSandbox.

Основные достоинства SAP S/4HANA:

Часть комплексной платформы автоматизации бизнес-процессов.
Высокий уровень автоматизации рутинных процедур.
Высокий уровень отказоустойчивости.

Подробнее с платформой можно ознакомиться на официальном сайте.

«Триафлай»

Решение было впервые представлено в 2015 году после двухлетней работы. Продукт является разработкой компании «Доверенная среда», входящей в холдинг ГКС («Группа Систематика»). Позиционируется как система бизнес-аналитики (BI). Также весьма активно применяется для создания ситуационных центров и автоматизации контрольно-надзорной деятельности.

Подробная спецификация решения не раскрывается. Известно лишь то, что в качестве ОС используются разработки Astra Linux. Также известно, что конструктор произвольных коннекторов, который позволяет «на лету» создавать подключения ко структурированным и неструктурированным источникам данных, осуществлять предобработку и подготовку данных, написан на языке Python. В последних версиях также есть коннектор к базе единой межведомственной информационно-статистической системы — ЕМИСС, позволяющий оперировать данными государственной статистики.

Рисунок 18. Веб-интерфейс «Триафлай»

Для запуска системы программирование не требуется. Как утверждается, на пусконаладочные работы уходит не более трёх рабочих дней. Доступ пользователей ко всем функциям и ресурсам системы осуществляется через веб-интерфейс, поэтому клиентское приложение также не нужно и для взаимодействия с системой достаточно любого браузера. Как утверждается, возможна продуктивная работа и с использованием мобильных устройств.

Пройдена сертификация ФСТЭК России 2-го и 4-го уровней по защите от несанкционированного доступа. Также есть сертификаты Минобороны и ФСБ России.

Основные достоинства «Триафлай»:

Практически не требуются пусконаладочные работы.
Не требуется клиентское ПО.
Поддерживается работа с информацией ограниченного доступа.

Подробнее с продуктом можно ознакомиться на сайте компании.

NGFW

Этот сегмент также представлен единственным продуктом. В целом он ориентирован на защиту не только сред обработки больших данных, но и любых инфраструктур с широким использованием платформ виртуализации.

VMware NSX Service-defined Firewall

Это решение представляет собой программный межсетевой экран нового поколения (NGFW) 7-го уровня. Встраивается в гипервизор виртуализации или работает на физическом сервере в виде агента. Помимо системы межсетевого экранирования также содержит средства обнаружения и предотвращения вторжений, сетевую песочницу, инструментарий анализа сетевого трафика на основе поведения.

Рисунок 19. Архитектура VMware NSX Service-defined Firewall

Обладает пропускной способностью до 20 Тбит/с, что позволяет использовать его в крупных ЦОД, как корпоративных, так и коммерческих, в том числе для оказания облачных услуг. Это решение применяет, в частности, компания DEAC, в том числе и для сервиса из настоящего обзора. Как утверждает VMware, продукт полностью соответствует активно набирающей популярность модели «нулевого доверия» (Zero Trust). За счёт замены физического оборудования программным решением устраняется потребность в изменении сетевой инфраструктуры и перенаправлении трафика. В итоге, по независимым подсчётам, расходы на эксплуатацию решения на 73 % ниже средних показателей.

Основные достоинства VMware NSX Service-defined Firewall:

Высокая производительность.
Реализация модели Zero Trust.
Не требует перенастройки сетевой инфраструктуры при внедрении.

Подробнее с продуктом можно ознакомиться на сайте компании.

Выводы

Рынок средств защиты для платформ обработки больших данных является вполне зрелым и насыщенным. Вместе с тем процесс имплементации защитных функций в универсальные системы или непосредственно в сами комплексы обработки больших данных можно считать практически завершённым. С системами резервного копирования это произошло несколько раньше, в 2015–2016 годах, с остальными — в 2018–2019 годах. Исключение составили системы контроля и разграничения доступа и ряд СКЗИ.

Парадоксально, но этому способствовало то, что сами защитные инструменты начали использовать средства анализа больших данных, что позволило лучше отслеживать системные события и фиксировать разного рода аномалии. Кроме того, потенциальные заказчики не были готовы усложнять комплекс защитных средств для своей инфраструктуры, особенно в условиях дефицита квалифицированных кадров.

Полезные ссылки:

Сравнение сертифицированных ФСТЭК России средств резервного копирования и восстановления данных для виртуальных сред

Обзор сертифицированных средств защиты информации от несанкционированного доступа (СЗИ от НСД)