Компания Vigilant применила теорию информации для борьбы с угрозами

Компания Vigilant применила теорию информации для борьбы с угрозами

Специалисты фирмы намерены применять для противодействия вредоносному программному обеспечению математические методы измерения энтропии. Вычисляя степень неопределенности фрагментов в потоке данных, можно обнаруживать аномалии, которые, в свою очередь, способны указать на присутствие опасных приложений или активности злоумышленников.

Так, если последующий фрагмент полностью предсказуем на основании сведений о предыдущих, то можно говорить, что энтропия в рассматриваемом случае имеет нулевое значение. При равновесном выборе из двух вариантов (как в общеизвестном примере с подбрасыванием монеты) степень случайности соответствует одному биту энтропии, и так далее. В защите информации энтропию можно привлекать, скажем, для оценки надежности паролей: если абсолютно случайное кодовое слово, состоящее из восьми произвольных и ни разу не повторяющихся символов, может характеризоваться 52 битами энтропии, то при использовании определенных слов степень неопределенности пароля снижается в среднем до 18 битов - а, следовательно, взломщик может испробовать не все 252 комбинаций, а лишь наиболее вероятные 218 (существенно снизив тем самым время подбора).

Vigilant, однако, использует энтропию для других целей, а именно - для выявления атипичных образцов данных, которые могут быть соотнесены с вредоносным кодом. Похожая тактика успешно применяется в службах защиты от спама: если одна учетная запись отправляет письма на тысячи адресов, не имеющих никакой явной связи ни с ней, ни друг с другом, то можно с высокой степенью уверенности заключить, что рассылка является нежелательной. Эксперты компании уверены, что расчет показателя энтропии может быть столь же эффективно использован для отсеивания вредоносных объектов (поскольку многие инфекции генерируют случайные имена файлов), а также доменов. В частности, по данным Vigilant, степень неопределенности обычного доменного имени изменяется в пределах от 2,5 до 3,9 битов; следовательно, если энтропия превышает уровень в 4 бита, то перед нами, скорее всего, продукт работы вредоносного генератора случайных имен.

Еще один вариант применения соответствующих расчетов - борьба с программными шпионами, которые используются в долговременных атаках повышенной сложности (APT). Чтобы скрыть факт утечки сведений, шпионы часто шифруют информацию перед ее отправкой хозяину, но при передаче используют стандартный протокол HTTP, а не защищенное соединение. Обычный текст на естественном языке имеет невысокие показатели энтропии (например, для английского языка - от 0,6 до 1,5 бит); напротив, шифртекст по самой своей сущности должен характеризоваться как можно более высокой степенью непредсказуемости. Соответственно, если по обычному исходящему соединению вдруг начинают идти потоки данных с высоким показателем энтропии, то это явственно сигнализирует о попытке передать криптованные сведения - что, в свою очередь, вызывает обоснованные подозрения.

PC World

Письмо автору

ИИ научился находить владельцев скрытых аккаунтов в соцсетях

Искусственный интеллект, который многим кажется удобным помощником для работы и поиска информации, оказался ещё и очень полезным инструментом для деанонимизации. Новое исследование показало, что большие языковые модели могут заметно упростить поиск владельцев анонимных аккаунтов в соцсетях.

Схема такая: ИИ анализирует всё, что человек пишет в анонимном профиле, вычленяет характерные детали, а потом ищет совпадения на других платформах, где пользователь уже выступает под настоящим именем или хотя бы менее скрытно. И во многих тестах такой подход срабатывал довольно точно.

Авторы исследования, Саймон Лермен и Даниэль Палека, прямо говорят: большие языковые модели сделали подобные атаки не только возможными, но и экономически оправданными. По их мнению, это заставляет буквально заново пересмотреть представление о том, что вообще можно считать конфиденциальностью в интернете.

В рамках эксперимента исследователи «скармливали» модели анонимные аккаунты и просили собрать максимум доступной информации. Дальше ИИ сопоставлял детали из постов с другими открытыми источниками. Пример, который приводят авторы, выглядит почти бытовым: человек пишет о проблемах в школе и о прогулках с собакой по кличке Бисквит в парке Мишен Долорес. Для живого человека это может быть просто набор мелочей. Для ИИ — уже почти готовый пазл.

Дальше модель ищет, где ещё в интернете встречается такой же набор деталей, и с высокой вероятностью связывает анонимный аккаунт с конкретным человеком. И это, пожалуй, самое неприятное в истории: ничего взламывать тут не нужно. Достаточно открытых данных и модели, которая умеет быстро собирать разрозненные кусочки в цельную картину.

Исследователи отдельно предупреждают, что такая технология может использоваться не только мошенниками, но и государственными структурами для слежки за активистами и другими людьми, которые стараются высказываться анонимно.

А для киберпреступников это ещё и удобный путь к целевым атакам — например, к персонализированному фишингу, когда жертве пишут так убедительно, будто сообщение отправил знакомый человек.

По сути, ИИ делает массовое OSINT-наблюдение куда доступнее. Раньше для такой работы нужны были время, навыки и терпение. Теперь во многих случаях хватает публично доступной модели и подключения к интернету. Именно это и вызывает тревогу у специалистов по кибербезопасности.

Впрочем, исследователи и эксперты подчёркивают, что ИИ тут не всесилен. Большие языковые модели всё ещё ошибаются, а иногда и откровенно фантазируют. Из-за этого возможны ложные совпадения, когда человека могут ошибочно связать с аккаунтом, к которому он вообще не имеет отношения. И это уже отдельный риск, особенно если речь идёт о политических темах или публичных обвинениях.

Ещё одна важная проблема в том, что для деанонимизации могут использоваться не только соцсети. По словам экспертов, в дело могут идти и другие открытые данные: статистические публикации, записи, сведения о поступлении, медицинские наборы данных и другие массивы информации, которые раньше считались достаточно обезличенными. В эпоху ИИ этого обезличивания может уже не хватать.

В качестве первых мер защиты авторы советуют платформам жёстче ограничивать массовый сбор данных: вводить лимиты на выгрузку пользовательской информации, отслеживать автоматический скрейпинг и ограничивать массовый экспорт данных.

А обычным пользователям рекомендация простая: чуть внимательнее относиться к тому, какие повторяющиеся детали о себе они оставляют в открытом доступе.

RSS: Новости на портале Anti-Malware.ru