ИИ Том Хэнкс не предлагал мне работу, но, похоже, он это сделал

build_links(); ?>

Звук с искусственным интеллектом значительно улучшился – и это даже не последняя модель.

Том Хэнкс позвонил мне не просто для того, чтобы предложить роль, но это действительно похоже на то.

С тех пор как PCWorld начал освещать развитие различных приложений искусственного интеллекта, таких как AI art, я рылся в репозиториях кода на GitHub и ссылках на Reddit, где люди публикуют изменения в своих собственных моделях искусственного интеллекта для различных подходов.

Некоторые из этих моделей фактически попадают на коммерческие сайты, которые либо внедряют свои собственные алгоритмы, либо адаптируют другие, опубликованные с открытым исходным кодом. Отличным примером существующего аудиосайта с искусственным интеллектом является Uberduck.ai , который предлагает буквально сотни предварительно запрограммированных моделей. Введите текст в текстовое поле, и вы можете попросить виртуального Илона Маска, Билла Гейтса, Пегги Хилл, Даффи Дак, Алекса Требека, Бивиса, Джокера или даже Siri прочитать ваши запрограммированные строки.

В прошлом году мы загрузили поддельный Билл Клинтон, восхваляющий PCWorld, и модель уже звучит довольно неплохо.

Вот модель нашего бывшего президента, сидящего с PCWorld и перекусывающего. Конечно, это подделка.
Обучение искусственного интеллекта воспроизведению речи включает в себя загрузку четких образцов голоса. Искусственный интеллект “изучает”, как говорящий сочетает звуки с целью, изучая эти взаимосвязи, совершенствуя их и имитируя результаты. Если вы знакомы с превосходным триллером 1992 года “Кроссовки” (с участием Роберта Редфорда, Сидни Пуатье и Бена Кингсли, среди прочих), то вы знаете о сцене, в которой персонажам нужно “взломать” биометрический голосовой пароль, записав образец голоса цели. голос. Это почти одно и то же.

Обычно для создания хорошей модели голоса может потребоваться довольно много тренировок с использованием длинных образцов, показывающих, как говорит конкретный человек. Однако за последние несколько дней появилось кое-что новое: Microsoft Vall-E, исследовательский документ (с живыми примерами) о синтезированном голосе, которому требуется всего несколько секунд исходного звука для создания полностью программируемого голоса.

Естественно, исследователи искусственного интеллекта и другие поклонники искусственного интеллекта хотели знать, была ли модель Vall-E уже выпущена для широкой публики. Ответ – нет, хотя при желании вы можете поиграть с другой моделью, которая называется Tortoise. (Автор отмечает, что он называется Tortoise, потому что он медленный, каковым он и является, но он работает.)

Тренируйте свой собственный искусственный интеллект с помощью Tortoise
Что делает Tortoise интересным, так это то, что вы можете обучить модель любому голосу, который выберете, просто загрузив несколько аудиоклипов. На странице Tortoise GitHub отмечается, что у вас должно быть несколько клипов продолжительностью около дюжины секунд или около того. Вам нужно будет сохранить их как .WAV-файл с определенным качеством.

Как все это работает? С помощью общедоступной утилиты, о которой вы, возможно, не знаете: Google Colab. По сути, Collab – это облачный сервис, предоставляемый Google, который позволяет получить доступ к серверу Python. Код, который вы (или кто-то другой) пишете, может быть сохранен в виде записной книжки, которой можно поделиться с пользователями, имеющими общую учетную запись Google. Общий ресурс Tortoise находится здесь.

Интерфейс выглядит устрашающе, но это не так уж плохо. Вам нужно будет войти в систему как пользователь Google, а затем нажать “Подключиться” в правом верхнем углу. Одно слово предупреждения. Хотя этот Colab ничего не загружает на ваш Google Диск, другие Colabs могут это сделать. (Однако генерируемые при этом аудиофайлы хранятся в браузере, но могут быть загружены на ваш компьютер.) Имейте в виду, что вы выполняете код, написанный кем-то другим. Вы можете получать сообщения об ошибках либо из-за неправильных входных данных, либо из-за сбоя в работе серверной части Google, например, из-за отсутствия доступного графического процессора. Все это немного экспериментально.

Черепаха Google Collaborate
Черепашья коллаборация. Нажмите кнопку “Подключиться”, чтобы начать, затем нажмите на маленький значок “воспроизвести” рядом с каждым блоком кода по очереди.
Марк Хачман / IDG
Каждый блок кода имеет небольшой значок “воспроизвести”, который появляется, если навести на него курсор мыши. Вам нужно будет нажать “воспроизвести” на каждом блоке кода, чтобы запустить его, ожидая выполнения каждого блока, прежде чем запускать следующий.

Хотя мы не собираемся подробно описывать все функции, просто имейте в виду, что красный текст может быть изменен пользователем, например, предлагаемый текст, который вы хотите, чтобы модель произносила. Примерно в семи кварталах отсюда у вас будет возможность обучить модель. Вам нужно будет назвать модель, а затем загрузить аудиофайлы. Когда это завершится, выберите новую звуковую модель в четвертом блоке, запустите код, затем настройте текст в третьем блоке. Запустите этот блок кода.

Если все пойдет по плану, у вас будет небольшой аудиовыход с вашим сэмплом голоса. Работает ли это? Что ж, я сделал быструю и грязную модель голоса моего коллеги Гордона Ма Унга, чьи работы представлены в нашем подкасте The Full Nerd, а также в различных видеороликах. Я загрузил пример продолжительностью в несколько минут, а не короткие фрагменты, просто чтобы посмотреть, сработает ли это.

Результат? Что ж, это звучит правдоподобно, но совсем не похоже на Гордона. На данный момент он, безусловно, в безопасности от цифрового олицетворения. (Это также не является одобрением какой-либо сети быстрого питания.)

Но существующая модель, которую автор “Черепахи” обучил на актере Томе Хэнксе, звучит довольно неплохо. Здесь говорит не Том Хэнкс! Том тоже не предлагал мне работу, но этого было достаточно, чтобы одурачить хотя бы одного из моих друзей.

Вывод? Это немного пугает: эпоха веры в то, что мы слышим (и скоро увидим), заканчивается. Или это уже произошло.

build_links(); ?>

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *