Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Татьяна Никитина 15 Июня 2023 - 14:46

...

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

Следующая главная новость »

SOC без иллюзий: от выбора технологий к реальной защите - обсудим в эфире AM Live! Регистрируйтесь »

Екатерина Быстрова 09 Февраля 2026 - 16:09

GenAI (генеративный искусственный интеллект) Домашние пользователи Корпорации

Meta не сможет оставить в WhatsApp только свой ИИ

Meta (признана экстремисткой и запрещена в России) не может ограничивать доступ сторонних ИИ-помощников к WhatsApp и оставлять в мессенджере только собственный ИИ. К такому выводу пришла Европейская комиссия, объявив о введении временных антимонопольных мер против компании.

Речь идёт о предварительном этапе расследования, которое Еврокомиссия запустила ещё в декабре.

Поводом стали изменения в условиях использования WhatsApp, вступившие в силу в январе. После них Meta AI оказался единственным ИИ-помощником, доступным в мессенджере, тогда как конкуренты фактически были вытеснены с платформы.

В Еврокомиссии считают, что такая политика может привести к «серьёзному и необратимому ущербу для рынка». По мнению регулятора, Meta, пользуясь доминирующим положением WhatsApp (принадлежит Meta, признанной экстремистской и запрещенной в России) — самого популярного мессенджера во многих странах ЕС, — создаёт барьеры для выхода и развития других ИИ-сервисов.

«Поведение Meta грозит необратимой маргинализацией более мелких игроков на рынке универсальных ИИ-ассистентов», — говорится в заявлении Комиссии.

Примечательно, что временные меры — редкий инструмент для европейского антимонопольного ведомства. В последний раз его применяли ещё в 2019 году, когда Еврокомиссия вмешалась в дело против Broadcom. Это подчёркивает, насколько серьёзными регулятор считает риски вокруг ИИ-доступа к WhatsApp.

При этом решение Еврокомиссии не распространяется на Италию. Итальянский антимонопольный регулятор ранее запустил собственное расследование и уже обязал Meta сохранить доступ конкурирующих сервисов к WhatsApp в рамках отдельного дела.

Теперь Meta получит возможность официально ответить на предварительные претензии Еврокомиссии. Само антимонопольное расследование при этом продолжается, и его итоговые выводы могут привести к более жёстким мерам.

SOC без иллюзий: от выбора технологий к реальной защите - обсудим в эфире AM Live! Регистрируйтесь »