Перейти к содержанию
AM_Bot

С утечками данных будут бороться гибридные технологии

Recommended Posts

AM_Bot

В настоящее время на рынке систем предназначенных для защиты конфиденциальной информации от утечек (DLP), существует несколько основных базовых технологий обнаружения, среди которых лингвистический и контекстный анализ, а также цифровые отпечатки и метки.

Эти технологии по отдельности на практике оказываются не так эффективны и универсальны, как хотелось бы, поэтому будущее DLP логично вырисовывается в чертах гибридной технологии и гибридного анализа, о котором и пойдет речь в этой публикации. читать дальше

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Н.Зенин

Хорошее название - "гибридные технологии"

напоминает "гибридные двигатели" (вы можете ехать одновременно как по-старинке на бензине, так и на электричестве) =)

Да, все разработчики DLP используют по несколько методов детектирования конфиденциального контента.

У меня другая классификация, нежели в статье, но суть та же:

64cd3.png

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."

Скорее, это в российских реалиях пока не используется.

Например, западные решения DLP (Websense, Symantec, McAfee&Reconnex, RSA DLP, Trend Micro LeakProof и другие) вовсю используют смесь цифровых отпечатков и лингвистики для тонкого управления политиками:

  • Данные из баз данных обнаруживаются по "отпечаткам баз данных" (Websense, Symantec).
  • Статические данные обнаруживаются однозначно на базе цифровых отпечатков, - и по ним применяют блокирующие политики.
  • Новые и динамические данные обнаруживаются на базе контентного анализа и отчасти - регулярных выражений, - но по ним блокировки не включают, т.к. всегда будут ложные срабатывания.
Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Сегодня Websense DSS, Symantec DLP в российских предприятиях работает в основном по цифровым отпечаткам

(80% инцидентов утечки, которые видят офицеры безопасности, создается на основе цифровых отпечатков массивов с документами и отпечатков баз данных, и только 20% инцидентов - по встроенным шаблонам - регулярные выражения, ключевые слова);

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

  • Upvote 5

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Сергей Ильин

Н.Зенин, спасибо за диаграмму, очень удобная для анализа.

Не соглашусь, что "Гибридный анализ ... пока не используется ни в одном из существующих на рынке DLP продукте."

Скорее, это в российских реалиях пока не используется.

Если под гибридностью понимать отпечатки + примитив в виде регулярных выражений и словарей, то да, это есть у всех. Я же в имел в виду под гибридностью сращивание продвинутого лингвистический и контекстного анализа с цифровыми отпечатками. Именно такой технологический коктейль с моей точки зрения был бы наиболее эффективен.

Другой вопрос в том, что базы для контентного анализа западных решений не проработаны так хорошо, как InfoWatch, для качественного обнаружения русскоязычного контента.

Все таки простые словари или тем более регулярные выражения никак не поднимается язык назвать лингвистикой. Для английского языка, возможно, это и может прокатить как лингвистику, но для более сложных европейских языков, таких как русский или немецкий, этого будет недостаточно. Нужно понимать морфологию, синонимы, понимать простейшие замены и т.п.

Продуктов, где есть и такая продвинутая лингвистика и цифровые отпечатки, пока на рынке нет. Ближе всего сейчас к этому именно упомянутый выше Инфовотч (в версии 3.3 это уже будет).

В то время как в западных внедрениях целых 50% инцидентов создаются на основе анализа по словам (английский язык), 50% - отпечатки. Это ли не гибридные технологии?

Да, это уже неплохо, но должен быть перевес в сторону лингвистики ИМХО. Динамические данные, которые составляют основную часть исходящего трафика в виде почты, IM, постов в блогах и форумах и т.п., - набиваются руками отправителем, как правило, это просто непаханное поле. Утечки такого типа, когда человек прочитал документ и по аське своими словами сливает основные мысли их него, никакими отпечатки не обнаружат (нет копирования из исходника). Явно есть куда работать в плане эффективности лингвистического и контекстного анализа.

Думаю, в течение ближайшего года InfoWatch проинтегрирует цифровые отпечатки, а кто-то из Symantec, Websense, McAfee, RSA создадут хорошую пригодную для России словарную базу, - и у всех будут так называемые "гибридные технологии".

Полностью согласен, все именно к этому и идет. Клиенты от это только выиграют.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo

1. Цифровые отпечатки хороши только если документы почти идентичны с заданными или скомпонованы из нескольких заданных. это крайне примитивная технология, которая еще много лет назад была реализована в другом нашем проекте www.plagiatinform.ru

2. Наиболее эффективным явялется поиск документов похожих по содержанию, ничего ощего не имеющий с фингерпринтами.

3.Насчет регулярных выражений и отслеживаний информаций уходящей во внешний мир из баз данных. Это поддерживают сегодня кроме нас только макафи и вебсенс, Но вебсенс вообще поддерживает честно говоря криво. Мы исследовали их алгоритм -- там просто каждой записи конкретной таблицы ставится своеобразный md5 хэш и проверка идет на его совпадение. То есть если появляются новые записи в БД и их отсылают во внешний мир ничего отслежено не будет, пока не перестроится вебсенсовский индекс регуллярных выражений, то есть не доиндексируется искомая таблица искомой базы. В том что касается макафи -- там чуть лучше с регулярными выражениями чем у вебсенс, НО нельзя отследить если берем из таблицы базы данных записи и отсылаем их не целиком а частично. У нас же есть специальный мезанизим для таких случаев, который кстати будет продемонстрирован на конференции лукойла в сочи в июле этого года. Для желающих велкам с конца июля обращаться к нашим менеджерам -- вам все покажут.

4. И это все не гибридные технологии, а я бы структурировал так

- Ряд 1

- поиск по словам (умеют все кто с морфологией кто то без)\

- поиск по фразам с расстоянием между словамм (умеют очень немногие)

- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

- Ряд 2

-- фингепнринты. Умеют много систем и различия по икачеству на самом деле незначительнв.

-ряд 3

- простые регулярные выражения (мы, вебенс, макафи)

- сложные регулярные выражения и технологии контроля информации взятой из базы данных если не вся запись берется а только часть и впроизвольном порядке (пока только мы).

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
- поиск документгов похожих по содержанию. Умеем только мы и это запатентовано

Назову только одного игрока, но очень известного (выходцы из SAIC), кто это делает - Content Analyst. Среди их наворотов, как ты это называешь "поиск похожих", значится под именем Concept Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).

Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation ;)

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Естественно есть и другие игроки, но эти просто самые известные.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
Search (http://www.contentanalyst.com/html/tech/technologies_conceptual.html).

Но мне больше нравится их Relationship Discovery и Name Tracking and Disambiguation ;)

Они сами разумеется такой мелочью как DLP не занимаются, но они предоставляют SDK...

Ашот а теперь уж расскажи подробней что за звери

- Relationship Discovery

- Name Tracking and Disambiguation

А ты сам щупал их СДК? Как на русском языке работает?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
А ты сам щупал их СДК? Как на русском языке работает?

сам пока не щупал. есть идеи пощупать, но нет времени.

русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ;)). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает ;)

Ашот а теперь уж расскажи подробней что за звери

- Relationship Discovery

- Name Tracking and Disambiguation

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.

- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ. ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Leo
сам пока не щупал. есть идеи пощупать, но нет времени.

русский один из основных для них, вместе с китайским и арабским (специфика заказчиков в погонах такова ;)). поэтому как-то оно работать должно. тем-более они везде декларируют, что язык им вообще не важен, они опереруют т.н. "понятиями" (в их терминологии - "meanings"). как реально это работает - хрен его знает ;)

А есть у тебя само СДК? Или его легко у них взять? Я бы без проблем дал своим ребятам пощупать. Народу благо у нас стало много и есть кому дать.

- Relationship Discovery - поиск связей между заданным понятием и данными из базы, вне зависимости от языка.

- Name Tracking and Disambiguation - это типа тогоже "Relationship Discovery", но заточенное конкретно под людей. Т.е. для заданного объкта (человек) ищутся все его имена, клички, псевдонимы, различные написания имени на всех языках. Причем, с учетом таких классических случаев, когда в английском языке имя или фамилия может в прямом написании означать какое-то слово ("классика жанра" фамилия Cruise, как Tom Cruise). Я знаю сколько nexplore.com стоило денег и времени такое сделать только для англ. имен, а эти ребятазаявляют не только для англ. ;)

Если я верно понял то это не поиск похожих а нахождение взаимосвязей сущностей или как? А далее я вообще не понял -- как сама система по имени человека может определить сама его клички и т.д. -- прям фантатсика какая то... То что крутая морфология и спеллинг и разное написание -- охотно верю, а вот клички -- расскажи подробней как это.

А вообще я на след. неделе буду в Москве -- давай пересечемся -- расскажешь -- уж очень любопытно...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
Ashot
А есть у тебя само СДК? Или его легко у них взять?

пока нет. даже не интересовался как его получить. Выходы на них у меня есть, впринципе натравить нашего американского Business Developer я могу. Проблема в том, что некогда этим заниматься - они же не просто дадут SDK, а захотят пообщаться на разные темы, а это уже надо готовиться. Ладно, посмотрим-обсудим при встрече...

Если я верно понял то это не поиск похожих а нахождение взаимосвязей

конкретно эти два типа поиска - да. поиск похожих это у них называется Concept Search, я же об это написал.

А как оно работает при поиске пседонимов - ну хрен знает, но уверен что как-то работает ;) Как я понимаю, они строят граф всех понятий (вершины графа -понятия) и отслеживают связи между ними.

А вообще я на след. неделе буду в Москве -- давай пересечемся

звони. но только сильно много я тебе про это не расскажу, т.к. не вникал глубоко, но думаю мы по другим темам тоже найдем о чем поговорить ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

  • Сообщения

    • Ego Dekker
      Домашние антивирусы для Windows были обновлены до версии 17.2.8.
    • demkd
    • santy
      demkd, а где сохраняется информация о количестве используемых ядер? в settings.ini? Не увидел там новый параметр при изменения параметра производительности в доп. настройках.
    • demkd
      ---------------------------------------------------------
       4.99.1
      ---------------------------------------------------------
       o Это обновление добавляет поддержку многоядерных процессоров.

       o В меню Настройки->Дополнительные настройки добавлена возможность указать количество рабочих потоков
         для функций:
           o Создание файла сверки                                        (нельзя прервать)
           o Создание образа автозапуска                                  (нельзя прервать)
           o Загрузка производителя [F3]                                  (доступно прерывание функции по ESC)
           o Проверка по базе проверенных файлов [F4]                     (доступно прерывание функции по ESC)
           o Проверка ЭЦП [F6]                                            (доступно прерывание функции по ESC)
           o Проверка по базе критериев [Alt+F7]                          (доступно прерывание функции по ESC)
           o Фильтрация по базе критериев [Ctrl+F7]                       (доступно прерывание функции по ESC)
           o Проверка списка по выбранному критерию                       (доступно прерывание функции по ESC)
           o Проверить весь список на вирусы                              (доступно прерывание функции по ESC)
           o Добавить хэши всех проверенных файлов в базу проверенных     (доступно прерывание функции по ESC)
           o Добавить хэши исполняемых файлов каталога в базу проверенных (доступно прерывание функции по ESC)
         Значение 0 задает количество потоков равным количеству ядер процессора (включая виртуальные), виртуальные ядра
         могут ускорить процесс на лишние 30%.
         Как сказывается использование E-ядер неизвестно, но скорее всего ощутимой разницы с P ядрами не будет,
         поэтому на новых интелах + NVME SSD сокращение времени исполнения функций скорее всего будет огромным.
         При подключении к удаленной системе для серверной части uVS количество потоков всегда равно количеству ядер (включая виртуальные).
         Для клиентской части действует заданное в настройках значение.
         Для системного диска на базе SSD время выполнение функции уменьшается многократно (для 4-х ядерных процессоров вплоть до 4x на SATA SDD),
         для современных конфигов может иметь смысл задание большего числа потоков чем количество ядер у процессора (допустимый максимум - 128).
         Для HDD все гораздо хуже, время проверки немного сокращается (10-20%), однако когда часть файлов находится
         в кэше системы (т.е. в оперативной памяти) разница будет существенной и для HDD.
         Конечно все это верно лишь для процессоров с более чем 1 ядром.
         (!) Прерывание функции по клавише ESC недоступно для удаленных систем.

       o Другие функции, которые можно прервать по ESC:
         o Проверить все НЕПРОВЕРЕННЫЕ файлы на VirusTotal.com
         o Проверить все НЕПРОВЕРЕННЫЕ ИЗВЕСТНЫЕ файлы на VirusTotal.com
         o Проверить НЕПРОВЕРЕННЫЕ файлы в текущей категории на VirusTotal.com (c учетом фильтра)
         o Проверить все НЕПРОВЕРЕННЫЕ файлы на virusscan.Jotti.org
         o Проверить все НЕПРОВЕРЕННЫЕ ИЗВЕСТНЫЕ файлы на virusscan.Jotti.org
         o Проверить НЕПРОВЕРЕННЫЕ файлы в текущей категории на virusscan.Jotti.org (с учетом фильтра)
         o Проверить хэш файла по базе проверенных файлов
         o Добавить в список->Все исполняемые файлы в системных каталогах не старше указанной даты

       o Обновлен функционал окна "История процессов и задач".
         Добавлена информация о текущем состоянии задач зарегистрированных в системном планировщике заданий.
         Добавлена новая кнопка "С момента запуска системы", которая переключает режим отображения истории.
         Если кнопка нажата то история отображается только с момента запуска системы, все что было раньше не попадает в список.
         Если кнопка отжата то отображается вся доступная история процессов и задач,
         что может быть полезно для выявления зловредной активности непосредственно перед перезагрузкой системы.
         Для каждой задачи по двойному щелчку левой кнопки мыши можно просмотреть XML описание задачи.
         Теперь фильтрующий поиск работает на все колонки активного списка одновременно, поддерживается
         фильтрация и списка процессов и списка задач, в зависимости от того какой список активен.
         Фильтрующий поиск применяется на результат работы родительского фильтра.
         Горячая клавиша Backspace больше не влияет на родительский фильтр, для отката уровня родительского
         фильтра используйте клавиши ESC (если строковый фильтр пуст) или Alt+Up (откат со сбросом строкового фильтра).
         (см. подробнее в файле Doc\История процессов и задач.txt)
         (!) Только для Vista и старше.
         (!) Только для активных и удаленных систем.

       o Включение отслеживания процессов и задач теперь увеличивает системный журнал до 50mb,
         отключение возвращает размер по умолчанию.

       o Новая скриптовая команда: deltskname полное_имя_задачи
         Удалить задачу с указанным именем.
         Имя задачи должно начинаться с символа "\", например: \Task
         Допустимо указывать каталоги например: \Microsoft\Задача
         (!) Только для Vista и старше.

       o Возвращено отображение цифровых процентов в заголовке окна, поскольку в некоторых системах графическое отображение
         прогресса выглядит не очень наглядно.

       o В окно выбора каталога/файла добавлен фильтрующий поиск (по обоим спискам одновременно если это выбор файла).
         В окне изменились горячие клавиши:
          o \ - перейти к выбору диска
          o DEL - удалить каталог/файл (с подтверждением)
          o ESC - очистить фильтр, если фильтр пуст то закрыть окно.   
          o Backspace - удалить последний символ фильтра
          o Alt+Вверх - перейти в родительский каталог

       o Функция создания образа автозапуска теперь не использует базы проверенных файлов и все проверенные файлы ДО создания
         образа теряют статус "проверенный". Т.е. в образе статус проверенный имеют лишь файлы прошедшие проверку ЭЦП.

       o Поскольку AutoHotkey используется зловредами то теперь все его актуальные версии выявляются под любым именем по F3 или
         при создании образа автозапуска и получают статус подозрительного файла.
         Соответствующие имени файла скрипты автозапуска добавляются в список автоматически и тоже получают статус подозрительных файлов.
         Содержимое скрипта доступно в окне информации ahk файла.

       o Введены новы лимиты на количество элементов в списке автозапуска для x64 версий в списке может быть до 1 млн. файлов,
         для x86 до 150 тысяч файлов. (Обычно в образе менее 10 тысяч файлов)

       o Оптимизированы функции сортировки, фильтрации и вывода списка.

       o В категории HOSTS добавлен фильтрующий поиск по 2 первым колонкам одновременно.
         Сортировки в этой категории нет, записи представлены в порядке следования в оригинальных файлах.
         Первыми идут записи из HOSTS, что лежит по прописанному в реестре пути, если путь отличается от пути по умолчанию
         то дальше идут записи HOSTS из \Windows\System32\drivers\etc, далее записи из HOSTS.ICS.
         В этой категории теперь работает горячая клавиша DEL.

       o Найдена ошибка в Windows API из-за которой для некоторых файлов не отображался производитель и другая информация о версии файла.
         Сам Windows для таких файлов не отображает случайные параметры на вкладке "Подробно" в свойствах файла.
         Ошибку удалось обойти и теперь в окне информации о файле отображаются все значимые параметры для всех исполняемых файлов.

       o Улучшен альтернативный режим сканирования процессов. (ctrl+p)

       o В контекстное меню окна информации о файле добавлен поиск по имени подписавшего файл.

       o Удалена скриптовая команда EXEC32 за бесполезностью.

       o Из настроек основного списка удален обычный поиск за бесполезностью.

       o Добавлен вывод предупреждения в лог при обнаружении вируса в списке при загрузке производителя и сигнатур про F3.

       o Исправлена и улучшена функция вывода результата исполнения консольных приложений.
         Теперь вывод осуществляется в реальном времени с поддержкой отображения динамического текста в последней строке.
         Проблема с кодировкой для старых систем решена.
         Добавлено время выполнения приложения.

       o Результат выполнения команды gpudpate теперь отображается в логе.

       o Сообщение об отсутствии пользовательского реестра в каталоге "All users"/ProgramData больше не выводится.

       o Немного дополнена документация.

       o Исправлена ошибка из-за которой вместо обычной x64 версии для старых систем запускалась x64v версия.

       o Исправлено ошибочное сообщение в логе при исполнении 44 твика.

       o Исправлена ошибка при сохранении истории задач в образ и при передаче данных из удаленной системы.

       o Исправлена и оптимизирована функция проверки списка по выбранному критерию.

       o Исправлена ошибка с растущим временем отката операции по Ctrl+Z при работе с образом.

       o Исправлена ошибка при определении параметров *OperatingSystemVersion для 64-х битного исполняемого файла.

       o Исправлена ошибка с неправильным откатом операции по HOSTS при работе с образом.

       o Исправлена ошибка подписи образа автозапуска удаленной системы (появилась в v4.15.4)

       o Исправлена функция Добавить в список->Все исполняемые файлы в системных каталогах не старше указанной даты

       o Исправлены мелкие интерфейсные ошибки.
       
    • PR55.RP55
      Предлагаю добавить удаление по критерию поиска. На примере темы: https://forum.kasperskyclub.ru/topic/463829-ne-poluchaetsja-udalit-virus/ т.е. у нас есть переменные и постоянные... данные. На основе постоянных данных создаётся критерий поиска и скрипт по нему отработает. В принципе  можно пользователю кинуть поисковый критерий в виде файла > Прогнать список по поиску > Удалить найденное. Но как это всё объяснять.
×