ИИ-сервис Code Insight, недавно появившийся на VirusTotal, вызвал положительный отклик в ИБ-сообществе. Окрыленные успехом участники проекта расширили поддержку скриптовых форматов, а также увеличили лимит на объем загружаемых файлов.
Дополнительный VirusTotal-инструмент был анонсирован на конференции RSA, проведенной в Сан-Франциско в конце прошлого месяца. Новый помощник аналитика построен на основе большой языковой модели (LLM) и доступен по запросу всем пользователям VT Intelligence, которым достаточно просто скопипастить нужные фрагменты кода (без загрузки всего семпла на VirusTotal).
Все остальные смертные довольствуются стандартным процессом, с предварительной фильтрацией ввода по таким критериям, как размер кода, сходство с уже обработанными образцами, наличие сигналов об абьюзах и т. п. Сгенерированные вердикты доступны через вызов API и отображаются в результатах поиска на сайте.
Изначально Code Insight помогал выявлять только PowerShell-зловредов. Недавно Google расширила сервис, добавив поддержку других форматов, в том числе BAT, CMD, SH и VBS. Максимальный размер загружаемых файлов (лимит, обусловленный использованием LLM) был увеличен в два раза, и это, по мнению разработчиков, не предел.
Объемный ввод можно разбивать на фрагменты с раздельной обработкой и последующим объединением результатов. Совершенствование методов предобработки и токенизации LLM тоже позволит оптимизировать обработку кодов большего размера.
Языковая модель теперь выдает более четкие и емкие пояснения с упором на поведение кода. Обновлен также пользовательский интерфейс: в нем по умолчанию отображаются лишь первые фразы отчета (чтобы не утяжелять вид), а расширить текст можно с помощью специальной опции.
Изучив отзывы и пожелания пользователей, Google наметила основные направления развития проекта:
- дальнейшее расширение поддержки типов файлов и размеров;
- реализация возможности анализа бинарников и экзешников;
- обеспечение возможности добавлять контекст к вводу — метаданных, связанных с URL и файлами, залинкованными в коде.
Что касается последнего пункта: сейчас Code Insight можно скормить лишь сам код, и LLM может истолковать его превратно из-за пресловутой склонности к «галлюцинациям». Например, принять безобидный инсталлятор за вредоносного загрузчика, и наоборот.
Участники проекта осознают, что злоумышленники могут воспользоваться этим свойством LLM и заставить ее выдать неверный вердикт. Таких вредоносов в дикой природе пока не замечено. В первые дни после анонса наблюдались лишь многочисленные PoC-попытки инъекции подсказок и выполнения других трюков, способных ввести Code Insight в заблуждение.