VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

VALL-E от Microsoft имитирует любой голос по трем секундам аудиопримера

Microsoft презентовала ИИ-модель, способную преобразовать текст в голос, который ей дали послушать всего 3 секунды. Получается очень похоже на оригинал, к тому же VALL-E (именно так назвали программу) умеет копировать интонации и добавлять естественные шумы. В “широкий прокат” VALL-E не пойдет, пока не придумают антипрограмму, способную распознавать робота.

Исследователи компании анонсировали программу VALL-E, которая синтезирует человеческий голос близко к оригиналу. Название сервиса созвучно известному американскому мультфильму про робота ВАЛЛ-И. Он очищал от мусора заброшенную людьми Землю, потом отправился в космос, вернулся и сумел спасти планету.

Для анализа искусственному интеллекту достаточно всего трехсекундного аудиопримера.

Создатели VALL-E говорят, что придумали программу в помощь приложениям, преобразующим текст в речь, когда нужно отредактировать какой-то отрывок в хорошем качестве. В этом случае программа может сымитировать то, что спикер на самом деле не говорил.

В Microsoft VALL-E называют моделью языка нейронного кода. Она построена на технологии EnCodec, которую корпорация Meta (признана экстремистской и запрещена на территории России) анонсировала в минувшем октябре.

В отличие от других методов преобразования текста в речь, которые обычно используют сигналы, VALL-E генерирует дискретные коды аудиокодеков из текстовых и акустических подсказок. Программа анализирует, как “звучит” человек, разбивает эту информацию на отдельные компоненты (“токены”) и учится на этих данных.

“Чтобы синтезировать речь, VALL-E генерирует соответствующие акустические маркеры, взятые из трехсекундного аудиопримера, а также использует фонетические подсказки, которые мог бы использовать человек, если бы отрывок длился дольше, — говорится в анонсе Microsoft. — Сгенерированные акустические маркеры используются для синтеза окончательной формы сигнала с помощью соответствующего декодера нейронного кодека”.

Microsoft уже натренировала VALL-E на тысячах аудиокниг на английском языке. На странице сервиса можно прослушать трехсекундный образец, оригинал и речь от VALL-E.

Некоторые примеры всё ещё напоминают роботизированный голос, но есть и очень похожие на заданную человеческую речь.

Кроме того, VALL-E способна воспроизводить акустическое окружение. Например, синтезировать речь, как будто она звучит из телефонной трубки.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей.

“Так как VALL-E может синтезировать речь, сохраняющую идентичность спикера, программа может нести потенциальные риски неправильного использования модели”, — признают создатели. Речь идет о подмене голосовой идентификации или выдаче себя за другого человека.

Риски снизит модель, позволяющая найти отличия и определить, был ли аудиоклип синтезирован VALL-E.

Американские ученые в сентябре предложили выявлять голосовые дипфейки с помощью флюидодинамики. В университете Флориды изучили достижения артикуляционной фонетики и разработали новую технику распознавания дипфейк-аудио — по отсутствию ограничений, влияющих на работу голосового аппарата человека. Созданный детектор способен определить подмену с точностью 92,4%.

Добавим, в ноябре Роскомнадзор заинтересовался разработкой НИУ ИТМО в области распознавания лжи по видеозаписи, а аналитики Сбера внесли Deepfake в одну из самых опасных технологий, способных угрожать кибербезопасности в перспективе ближайших пяти лет.

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

80% увольняющихся пытаются прихватить данные компаний

Согласно статистике, полученной по итогам анализа 230 инцидентов, выявленных при пилотном внедрении DLP-системы Solar Dozor в 2024 году, 8 из 10 увольняющихся сотрудников пытаются забрать доступные им информационные активы, в том числе конфиденциальные данные.

Почти в половине случаев (38%) сотрудники, готовящиеся покинуть компанию, стремятся заполучить сведения о клиентах и партнёрах.

Как отмечают в ГК «Солар», подобные данные являются особенно востребованными и представляют повышенный интерес для конкурентов, которые стараются получить их любыми способами. Для этого нередко используются методы внедрения «своих» сотрудников либо попытки получения информации с помощью манипулятивных техник.

На втором месте по популярности находится интеллектуальная собственность, интерес к которой проявляют 22% увольняющихся сотрудников. В отдельных сегментах рынка, таких как IT, фармацевтика и другие отрасли, где ценность интеллектуальных разработок особенно велика, доля подобных попыток еще выше.

Замыкают тройку лидеров маркетинговые материалы, на которые приходится 18% случаев. Утечка этой информации также способна нанести серьёзный финансовый ущерб организации.

В 14% случаев предметом интереса являются материалы, разработка которых требует значительных трудозатрат. Это локальная нормативная база и другая документация, регулирующая внутренние бизнес-процессы компании. Владение такой информацией существенно повышает ценность сотрудника на новом месте работы.

Еще в 8% случаев сотрудники пытаются вынести любую доступную информацию, не разбирая её ценности. В ГК «Солар» отмечают, что именно данная категория представляет наибольшую угрозу, так как таким образом наружу могут попасть крайне чувствительные конфиденциальные сведения, сам факт утечки которых компания узнаёт лишь тогда, когда информация уже стала публичной.

«Если говорить о каналах вывода данных увольняющимися сотрудниками, то чаще всего используются съемные носители и файлообменные сервисы. Эти каналы позволяют выгружать большие массивы информации, включая архивы документов, конструкторскую документацию и стратегические планы. Важно не только контролировать сами каналы передачи данных, но и отслеживать аномальное поведение сотрудников, особенно в нерабочее время. Например, внезапный рост количества файловых операций или повышенный исходящий трафик в вечернее время могут свидетельствовать о попытках несанкционированного выноса информации», — пояснил Дмитрий Мешавкин, руководитель продукта Solar Dozor ГК «Солар».

AM LiveПодписывайтесь на канал "AM Live" в Telegram, чтобы первыми узнавать о главных событиях и предстоящих мероприятиях по информационной безопасности.

RSS: Новости на портале Anti-Malware.ru