Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

Ученые НАСА собрали из Сети 8 млн PDF-файлов для изучения скрытых угроз

В паблик выложена коллекция документов PDF общим объемом около 8 Тбайт, созданная сотрудниками NASA JPL (Jet Propulsion Laboratory). Ресурс можно использовать для поиска вредоносов, спрятанных в файлах, а также багов в реализациях PDF-технологии.

Работы по составлению репрезентативной выборки были проведены совместно с НКО PDF Association в рамках программы SafeDocs, запущенной DARPA. За неполных два года JPL удалось собрать 8 млн файлов и дополнить их метаданными.

Для начала команда изучила каталог публичного репозитория Common Crawl, чтобы выявить PDF, пригодные для включения в коллекцию. В июле и августе 2021 года таким образом было отобрано около 8 млн кандидатов, из которых 2 млн. оказались усеченной копией.

Дело в том, что на Common Crawl действуют ограничения на загрузку: вес файлов не должен превышать 1 Мбайт. Полноценные копии пришлось добывать самостоятельно, используя специальный софт и URL, зафиксированные в репозитории.

Различные метаданные, такие как программа, с помощью которой создавался PDF, извлекались и приобщались к коллекции. Для определения местоположения сервера с сайтом-источником использовалась общедоступная программа геолокации.

Итоговый объем получился впечатляющим — 8 Тбайт. Новая коллекция размещена на серверах AWS, образцы можно скачать в виде ZIP-файлов.

Спецификации PDF замысловаты и объемны (1000 страниц англоязычного текста, содержащего 70 ссылок на другие нормативные документы), и в реализациях нередко встречаются опасные огрехи. Так, открытый юзером PDF-файл с зашифрованными данными можно использовать для эксфильтрации, возможна и подмена содержимого, от которой не спасает даже цифровая подпись. Использование PDF-формата также позволяет надежно скрыть вредоносный код от антивирусных сканеров.

В Петербурге пройдет «АВИАЦИФРА’2026» о цифровизации авиастроения

18–20 марта 2026 года в Санкт-Петербурге состоится вторая ежегодная отраслевая конференция «АВИАЦИФРА’2026», посвящённая цифровым трендам и технологиям в авиастроении. Мероприятие станет международной площадкой для профессионального общения ИТ-специалистов и заказчиков цифровых решений из авиастроительных предприятий, авиакомпаний, аэропортов, органов власти и профильных ИТ-поставщиков.

«АВИАЦИФРА’2026» позиционируется как практическая конференция с фокусом не на концепциях ради концепций, а на поиске прикладных решений, которые помогают повышать эффективность отрасли и снижать технологическую зависимость.

Основная деловая программа запланирована на 19 и 20 марта. Она будет построена вокруг пяти ключевых направлений, охватывающих практически весь жизненный цикл воздушного судна:

  • управление цифровыми технологиями;
  • проектирование авиационной техники;
  • производство авиационной техники;
  • эксплуатация авиационной техники;
  • ИТ-инфраструктура и кибербезопасность.

Отдельный акцент в программе сделают на сквозном треке «Цифровая кооперация». Его задача — обсудить, как уйти от разрозненных ИТ-подходов и выстроить связную цифровую среду между всеми участниками производственной цепочки. В центре внимания — концепция «цифровой нити», которая объединяет данные от стадии проектирования до многолетней эксплуатации и позволяет лучше управлять процессами и прогнозировать результаты.

20 марта в рамках конференции пройдёт тематический день ИЦК Авиастроение, ИЦК Двигателестроение и ИЦК БАС. Участникам представят результаты работы индустриальных центров компетенций и практические итоги реализации особо значимых проектов в отрасли.

Кроме того, на полях «АВИАЦИФРЫ’2026» запланированы внутренние стратегические сессии холдинговых компаний авиастроительного комплекса.

Организаторы делают ставку на высокий экспертный уровень дискуссий. В роли модераторов и ключевых спикеров выступят представители центральных офисов и предприятий авиастроительной отрасли — технические директора и руководители по цифровой трансформации крупных холдингов, включая ОДК, ОАК, «Вертолеты России», «Технодинамику», а также главные конструкторы, руководители профильных направлений и представители научных и образовательных центров.

Для сравнения: в конференции «АВИАЦИФРА’2025», которая прошла в Казани, приняли участие более 500 специалистов из 90 организаций, а программа включала 110 докладов по ключевым направлениям цифрового развития авиастроения.

«АВИАЦИФРА’2026» продолжит эту линию, делая упор на прикладной опыт, межотраслевую кооперацию и обсуждение реальных задач цифровизации авиационной промышленности.

RSS: Новости на портале Anti-Malware.ru