ИИ используется для создания всего, от изображений и текста до искусственных белков , и теперь к списку добавилась еще одна вещь: речь. На прошлой неделе исследователи из Microsoft опубликовали статью о новом искусственном интеллекте под названием VALL-E, который может точно имитировать любой голос на основе образца продолжительностью всего три секунды. VALL-E — не первый созданный симулятор речи, но он построен иначе, чем его предшественники, и может нести больший риск потенциального неправильного использования.
В большинстве существующих моделей преобразования текста в речь используются волновые формы (графическое представление звуковых волн по мере их прохождения через среду с течением времени) для создания искусственных голосов, настраивая такие характеристики, как тон или высота тона, для приближения к заданному голосу. VALL-E, тем не менее, берет образец чьего-то голоса и разбивает его на компоненты, называемые токенами, а затем использует эти токены для создания новых звуков на основе «правил», которые он уже узнал об этом голосе. Если голос особенно низкий, или говорящий произносит буквы «А» гнусаво, или он более монотонный, чем обычно, — все эти черты ИИ уловит и сможет воспроизвести.
Модель основана на технологии EnCodec от Meta , которая была выпущена в октябре этого года. Инструмент использует трехчастную систему для сжатия звука до размера, в 10 раз меньшего, чем MP3, без потери качества; его создатели хотели, чтобы одним из его применений было улучшение качества голоса и музыки при звонках, совершаемых через соединения с низкой пропускной способностью.
Для обучения ВАЛЛ-И его создатели использовали аудиотеку под названием LibriLight , чьи 60 000 часов английской речи в основном состоят из повествования аудиокниг. Модель дает наилучшие результаты, когда синтезируемый голос похож на один из голосов из обучающей библиотеки (которых более 7000, так что порядок не должен быть слишком высоким).
Помимо воссоздания чьего-то голоса, VALL-E также имитирует звуковую среду из трехсекундного семпла. Клип, записанный по телефону, будет звучать иначе, чем сделанный лично, и если вы идете или ведете машину во время разговора, учитывается уникальная акустика этих сценариев.
Некоторые из сэмплов звучат довольно реалистично, в то время как другие явно сгенерированы компьютером. Но есть заметные различия между голосами; вы можете сказать, что они основаны на людях, которые имеют разные стили речи, высоту звука и интонационные модели.
Команда, создавшая ВАЛЛ-И, знает, что ее могут очень легко использовать плохие актеры; от подделки звуковых фрагментов политиков или знаменитостей до использования знакомых голосов для запроса денег или информации по телефону — существует бесчисленное множество способов воспользоваться преимуществами этой технологии. Они мудро воздержались от публичного доступа к коду VALL-E и включили этическое заявление в конец своей статьи (которое не сильно удержит любого, кто хочет использовать ИИ в гнусных целях).
Скорее всего, это всего лишь вопрос времени, когда подобные инструменты появятся и попадут не в те руки. Исследователи предполагают, что риски, которые будут представлять такие модели, как VALL-E, можно снизить, создав модели обнаружения, чтобы определить, являются ли аудиоклипы реальными или синтезированными. Если нам нужен ИИ для защиты от ИИ, как узнать, оказывают ли эти технологии положительное влияние? Время покажет.
Изображение предоставлено : Shutterstock.com/Tancha