Как управлять голосом и подготовить его к публичному выступлению, записи видео или аудио

image onenoname, 14 июля 2021, 00:14

Android 5.0+   Другие версии

Обработка Голоса и Редактор Голоса — это приложение для преобразования голоса и добавления к нему всевозможных звуковых эффектов. Скачивайте приложение и смело используйте его для развлечений и работы.

Лучший Telegram-канал про технологии (возможно)

Основная функция редактора голоса — изменение голоса в разных вариантах. Вы сможете менять мужской голос на женский или детский, изменять его скорость, добавлять или убавлять басов, применять эффект гелиевого шара и много чего ещё. С такими потрясающими звуковыми эффектами вы сможете без проблем разыгрывать или поздравлять друзей и родных.

Особенности приложения Обработка Голоса и Редактор Голоса:

  • Функция записи голоса и его обработки.
  • Настройка диапазона и скорости воспроизведения звуков.
  • Настройка громкости, темпа и возможность добавление эха или реверберации.
  • Большой выбор потрясающих эффектов — более 18 эффектов (детский голос, звуки разных зверей и природы).
  • Замена мужского голоса на женский и наоборот.
  • Удобное в использовании — все функции и возможности отображаются на экране.
  • Сохранение измененных записей в отличном качестве и возможность делиться ими в соцсетях.

Telegram-канал создателя Трешбокса про технологии Чтобы увидеть более ранние версии, войдите на сайт Последнее изменение: 14 июля 2021, 00:14

Голос народа

Итак, как же записать аудиосообщение голосом популярного человека? В какой программе можно озвучить шутки, поздравления и мемы голосом знаменитости?

Приложение называется Parodist: голоса знаменитостей. Абсолютно бесплатно скачать его можно в официальных магазинах:

Еще куча лайфхаков, секретов обработки, лучших фильтров и необычных масок. А также о том, как сделать радугу на лице, наложить текст, правильно разложить раскладку на фото, описано в сборной большой статье. Кликайте на картинку! imageТеперь вы знаете, как записать и сделать аудио с голосом знаменитости! Пользуйтесь этим крутым приложением, чтобы разыграть или удивить ваших друзей.

Спасибо за вообще потраченное время

1 Июля 2021

Проверить, как правильно звучит слово, прочитать e-mail за рулём или озвучить текст робота в фильме – типичные ситуации, в которых вам может понадобиться синтезатор речи. Многие платные и бесплатные программы осуществляют перевод текста в речь на всех платформах, но не все они подходят русскоязычным пользователям. Озвучка текста на русском языке поддерживается далеко не всеми зарубежными ПО и онлайн-ресурсами. Да и их разработчики не всегда могут запрограммировать орфоэпические и интонационные нюансы.

Программа

Тип синтезатора

Плюсы

Минусы

Синтезатор речи Google Для мобильных устройств Большой выбор языков Ошибки в ударениях и сокращениях
SpeechText Для мобильных устройств Для работы не требуется доступ к сети Небольшое число настроек
Acapela Онлайн Поддержива­ет различные диалекты В браузерной версии можно воспроиз­вести бесплатно не больше 300 символов
Text-to-Speech Онлайн Продвинутые настройки Зачитывание текста отрывками по 30 секунд
Oddcast Онлайн Анимирован­ные дикторы Зачитывание текстов до 600 символов
Robot Talk Для ПК Бесплатное приложение для Windows Сохранение только в форматах WAV и WMA
Балаболка Для ПК Чтение текста из файлов DOC, DOCX, PDF, DjVu, FB2 и т. д. Для работы нужны установлен­ные синтезаторы речи
Говорилка Для ПК Использует словари произноше­ний, что позволяет корректировать произношение слов и словосочетаний Программа не вышла из бета-тестирования – возможны ошибки
Яндекс Переводчик Альтернатив­ная опция Знакомый голос бота «Алиса» Нет настроек голоса и скорости
Google Переводчик Альтернатив­ная опция Большой выбор языков Нет настроек голоса и скорости

Перевод текста в речь на русском языке: лучшие программы

В этой подборке – только проверенные программы для озвучки, которые зачитают ваш текст без ошибок. В некоторых из них озвучивание текста доступно только в режиме онлайн, но есть и те, в которых предусмотрена функция экспорта файла для дальнейшего использования. Как правило, платные программы обладают расширенными возможностями настройки, а начитанный текст на выходе звучит более естественно.

Мобильные синтезаторы

Синтезатор речи Google

Собственное мультифункциональное приложение Google для перевода текста в речь. Именно оно отвечает за озвучивание текста в переводчике и чтение аудиокниг в Google Play, а также во многих других программах Play Маркета.

SpeechText

Это приложение в первую очередь для тех, кто хочет узнать правильное произношение иностранных слов. Не лучший вариант ввиду ограниченности функционала. Но в качестве подспорья при изучении языка его вполне хватает.

Болтун

Удобное приложение для устройств на Андроиде. Может озвучить текст SMS, электронное письмо, статью в браузере – любые тексты, которые вы скопируете в буфер обмена или введете прямо в приложение.

Voice Aloud Reader

Еще одно приложение, которое можно скачать в Google Play. Программа работает с загруженными текстовыми файлами и сохраненными текстами. Русский язык поддерживается. Можно выбирать интонацию и скорость чтения.

Онлайн-синтезаторы

Acapela

Один из самых известных синтезаторов речи. Разговаривает на 30 языках. Текст на русском языке вам могут зачитать мужским голосом Николай, а женским – Алёна. На бесплатное использование есть ограничение: в браузерной версии можно воспроизвести не больше 300 символов. Для использования полного функционала необходимо скачать платную программу – она доступна на Windows, Linux, Mac, а также на мобильных OC Android и IOS.

Text-to-Speech

Синтезатор речи с продвинутыми настройками: можно задавать скорость речи, размер шрифта и машинный перевод. Доступна даже экранная клавиатура для людей с ограниченными возможностями. На русском текст может зачитать здесь только женский голос.

Oddcast

На этом портале вам тоже не дадут озвучить более 300 символов разом. Зато русский язык поддерживается тремя голосами: одним мужским (Дмитрием) и двумя женскими (Милиной и Ольгой). Но главная фишка портала в том, что текст вам зачитывают анимированные дикторы. За это можно простить программе даже не самый удобный интерфейс.

Linguatec

Как и в случае с Acapela, больше определенного количества символов (здесь – 250) бесплатная версия вам озвучить не разрешит. Но зато с этой задачей она справляется очень неплохо. Здесь так же доступны два голоса – мужской (Юрий) и женский (Милена).

iSpeech

Простейший бесплатный инструмент для озвучивания коротких текстов размером не больше твита – максимум 150 символов. Зато полученный результат можно сохранить на компьютере. Русский язык поддерживается.

PilliApp

Программа не разговаривает больше 60 секунд, поэтому разработчики рекомендуют делить длинный текст на несколько строк. За русский язык отвечают голоса Юрия и Елены. Сайт программы явно переведен в автоматическом режиме, поэтому не удивляйтесь легкой странности текста на главной странице.

2уха

Отечественный онлайн-софт с возможностью расширенных настроек: можно отрегулировать скорость чтения, высоту тона, громкость и чтение знаков препинания. Выбор невелик – только Александр или Елена. Зато можно не копировать текст в окошко, а сразу загрузить в программу файл Microsoft Word. Минус этого сервиса в том, что мгновенно озвучить текст не получится: придется подождать в очереди на конвертацию.

ПК синтезаторы

Robot Talk

Бесплатное приложение магазина Windows. В программе всего 5 голосов: 3 мужских и 2 женских. Можно изменять тембр голоса и скорость речи. Полученный на выходе аудиофайл можно сохранить.

Балаболка

Умная и непривередливая программа, которая читает тексты практически любых форматов – DOC, PDF, PPTX, XLS и многих других. Для озвучки используются движки синтезаторов речи, которые уже присутствуют в вашем компьютере. Помимо распознавания текста в речь, софт предлагает проверку орфографии. По окончании работы аудиофайл можно экспортировать.

Говорилка

Словари произношений в этой программе постоянно пополняются, поэтому орфоэпических ошибок можно не бояться. Считывает текстовые файлы и прокручивает текст на экране, как телевизионный суфлер. Ограничений по объему текстов нет, поэтому это отличный вариант для тех, кто предпочитает аудиокниги электронным: достаточно загрузить книгу в программу – и можно слушать.

2nd Speech Center

Предельно понятный интерфейс и все та же возможность экспорта файла в MP3 и WAV. Программа поддерживает файлы в формате TXT, DOC, PDF, EML, RTF, HTM, HTML. Можно регулировать скорость получившегося текста – удобно, чтобы послушать учебные материалы на иностранном языке.

Альтернативные синтезаторы

Яндекс Переводчик

Как мы уже знаем благодаря боту «Алиса», у софта «Яндекса» все хорошо с распознаванием речи. Преобразование текста в речь в интерфейсе их переводчика тоже работает на ура. Никаких дополнительных настроек и возможностей экспорта не предусмотрено, но это стандартная практика для приложений-переводчиков.

Google Переводчик

Аналогично своему российскому коллеге, этот переводческий инструмент выполняет базовые задачи по озвучке текста. Подходит для сверки ударений. Мобильное приложение этого сервиса нередко выручает в путешествиях: достаточно напечатать или сказать в динамик нужную фразу, чтобы софт тут же озвучил ее перевод вашему иностранному собеседнику.

Как обработать аудиофайлы

С любой аудиодорожкой, даже если это сохраненный файл из синтезатора речи, можно сделать много крутых вещей: улучшить звук, ускорить его или замедлить, проиграть обратно, убрать шумы, добавить аудиоэффекты или совместить с музыкальным фоном. И, конечно, можно наложить аудиотрек на видео для озвучки клипа. Большой простор для творчества со звуком и видеозаписями дает программа Movavi Video Suite. В ней можно не только работать с готовыми аудиофайлами, но и записать собственный аудиотрек или закадровый комментарий для видео, а также захватить звук с экрана компьютера и потом обработать его, если нужно. Movavi Video Suite включает также возможность конвертировать любые медиаформаты.

Movavi Video Suite

Всё для создания и обработки мультимедиа

КупитьПодробнее о Windows-версии Скачать бесплатноПодробнее о Windows-версии КупитьПодробнее о Mac-версии Скачать бесплатноПодробнее о Mac-версии

Валерия Кручина

Штатный контент-менеджер сайта Movavi: пишет и редактирует веб-тексты, переводит статьи с английского. Занимается переводом текстов IT-тематики более 4 лет. Выпускница Факультета иностранных языков Томского государственного университета, также училась по обмену в университете г. Дарем, Великобритания. Финалист конкурса переводов «Как это по-русски?» от агентства Palex. Увлекается видеомонтажом и созданием субтитров к коротким видео.

Наши авторы

Подпишитесь на рассылку о скидках и акциях

11 декабря 2019 Как научить искусственный интеллект читать текст любым голосом? Рассказываем, что известно о технологии клонирования голоса, на примере открытого репозитория Real-Time Voice Cloning. 6

Проблема синтеза речи из текста (Text-to-Speech, TTS) представляет собой одну из классических задач для искусственного интеллекта. Цель ИИ – автоматизировать процесс чтения текста, основываясь на наборах данных, содержащих пары «текст – аудиофайл».

Одной из важных проблем синтеза речи является задача создания образа голоса со всеми его характерными особенностями. Соответствующие наборы методик называют технологией клонирования голоса (англ. voice changing, voice cloning).

Решение указанной проблемы имеет множество практических приложений:

  • адаптация голосов актёров при локализации фильмов
  • озвучивание персонажей игр
  • голосовые поздравления
  • начитка аудиокниг, в том числе клонирование голосов родителей для сказок, прочитанных профессиональными дикторами
  • создание аудио- и видеокурсов
  • рекламные видеоролики и аудиореклама
  • голоса ботов и умных устройств, персонализированных голосовых помощников
  • синтез устной речи естественного звучания для немых людей, в том числе для людей, утративших возможность говорить из примеров их собственной речи
  • адаптация устной речи под модель местного акцента

Очевидно, что подобные технологии могут применяться с преступными целями: мошенничество, телефонное хулиганство, компрометирование в результате совмещения с технологией DeepFake. Поэтому кроме методов клонирования голоса важно разрабатывать средства для предотвращения незаконного использования технологии.

Для обучения системы необходимо иметь большое количество сопоставленных аудиозаписей и текстов. В случае голосов знаменитостей можно прибегать к помощи записей публичных выступлений, интервью, результатам творческой деятельности и т. п. В качестве текстовых пар могут применяться стенограммы или тексты, полученные в результате коррекции автоматически распознанной речи.

Отличительной особенностью последних разработок является то, что для создания правдоподобного образа «голосовой мишени» достаточно всё меньших интервалов звучащей устной речи.

Современное состояние

В сфере создания инструментов для клонирования голоса работают множество команд, стремящихся к коммерциализации программных продуктов. По приведённым ниже ссылкам вы можете оценить текущее состояние технологии:

  • Resemble.AI (предоставляется демоверсия программы).
  • iSpeech (есть демо для 27 языков, включая русский).
  • Lyrebird AI (можно загрузить демоверсию на 3 часа речи).
  • Vera Voice, созданный компанией Screenlife Technologies Тимура Бекмамбетова и командой проекта «Робот Вера». Недавно команда показала пример адаптации голосов русских знаменитостей:

Другие компании стараются обойти стороной этический вопрос за счёт использования вместо клонирования голоса нейросетевых систем синтеза-смешения множества голосов. Таким коммерческим продуктом является, например, Yandex SpeechKit.

В связи с тем, что данная технология представляет конкурентный интерес для множества IT-компаний, проекты с открытым исходным кодом крайне редки. В этой статье мы остановимся на редком свободном проекте Real-Time Voice Cloning. Этот открытый репозиторий является результатом применения технологии переноса обучения SV2TTS, описанной в научной публикации (сэмплы, полученные в результате применения подхода).

Автор библиотеки с июня 2019 участвует в упомянутом выше коммерческом проекте Resemble.AI и уделяет репозиторию меньше времени, но ничто не мешает вам сделать собственный форк проекта.

Алгоритм клонирования голоса

Чтобы компьютер мог читать вслух текст, ему нужно понимать две вещи: что он читает и как это произнести. Поэтому в проекте Real-Time Voice Cloning система клонирования принимает два входных источника: текст, который необходимо озвучить, и образец голоса, которым этот текст должен быть прочитан.

С технической точки зрения система разбита на три компонента:

  1. Переданный аудиофайл с образцом речи, записанным в виде звуковой дорожки, преобразуется кодером речи (speaker encoder) в векторное представление фиксированной размерности.
  2. Переданный текст также кодируется в векторное представлении кодером текста (text encoder). Объединение речевого вектора и вектора текста декодируется в спектрограмму. Кодер текста, конкатенатор векторов и декодер (на схеме объединены синим цветом) представляют собой структуру синтезатора речи.
  3. Вокодер (vocoder, виртуальное устройство синтеза речи) преобразует спектрограмму в звуковую форму.

Модели трёх выделенных компонентов обучаются независимо друг от друга.

Где взять данные?

Объёмы информации, необходимой для качественного обучения системы клонирования, составляют десятки и сотни Гб. В рассматриваемой библиотеке для хранения датасетов служит одна общая директория. Все сценарии предварительной обработки данных выводят результаты в новый каталог SV2TTS, создаваемый в корневом каталоге датасетов. Внутри этой директории появится каталог для каждой модели: кодера, синтезатора и вокодера.

Для обучения кодера речи можно обратиться к следующим библиотекам:

Использование предобученных моделей

Имеется инструкция по переносу проекта с помощью Docker, здесь мы рассмотрим установку на локальной машине. Учтите, что наличие GPU является обязательным. Клонируем репозиторий:

 git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git 

В качестве языка программирования используется Python 3, автор рекомендует версию 3.7. В связи с тем, что репозиторий предполагает привлечение вполне конкретных версий библиотек, рекомендуем питонистам пускать в ход виртуальное окружение.

Переходим в папку и устанавливаем необходимые зависимости:

 pip3 install -r requirements.txt 

Также потребуется фреймворк глубокого обучения PyTorch (версия не ниже 1.0.1).

Далее необходимо загрузить предобученные модели (архив на Google drive, зеркало). Согласно с вышеописанной схеме загруженный архив содержит три директории для трех моделей. Их нужно слить вместе с соответствующими директориями корневого каталога библиотеки.

Проверить правильность конфигурации можно ещё до загрузки датасетов:

 python3 demo_cli.py 

Если все тесты пройдены (вы увидите строку All tests passed), можно двигаться дальше. Скрипт предложит указать пути к файлам примеров, но для работы удобнее обратиться кграфическому интерфейсу:

 python3 demo_toolbox.py 

Если у вас уже загружены датасеты, то можно сразу указать путь к директории:

 python3 demo_toolbox.py -d <путь_к_директории_датасетов> 

Чтобы просто поиграть с программой, достаточно наименьшего по объёму датасета LibriSpeech/train-clean-100 (см. выше).

Пример результата вызова интерфейса:

Для первой пробы вы можете нажать под каждым разделом кнопки Random , чтобы выбрать случайный аудиопример, затем Load, чтобы загрузить голосовой ввод в систему. Выпадающий список Dataset служит для выбора набора данных, Speaker – для выбора персоны, Utterance – для произносимой фразы. Чтобы услышать как звучит отрывок, просто нажмите Play. Для запуска алгоритма нажмите Synthesize and vocode. С помощью кнопки Record one можно записать свой собственный сэмпл.

Пример работы с интерфейсом без обучения нейросетей представлен в следующем видеоролике:

Процесс обучения

Вместо предобученных моделей можно также задействовать модели, обученные на других примерах. Процесс обучения происходит посредством последовательного запуска скриптов той же библиотеки. Для того, чтобы узнать дополнительную информацию о каждом из скриптов, при используйте запуске из командной строки добавляйте аргумент -h.

Начинаем с подготовки данных для обучения кодера:

 python3 encoder_preprocess.py  

Для обучения кодер использует окружение visdom. Инструменты окружения выглядят следующим образом:

При необходимости вы можете отключить окружение с помощью аргумента --no_visdom .

Обучаем кодер:

 python3 encoder_train.py my_run  

Далее запускаем два скрипта, генерирующих данные для синтезатора. Начинаем с аудиофайлов:

 python3 synthesizer_preprocess_audio.py  

Затем вложения:

 python3 synthesizer_preprocess_embeds.py /synthesizer 

Теперь вы можете обучить синтезатор:

 python3 synthesizer_train.py my_run /synthesizer 

Синтезатор будет выводить сгенерированные аудио и спектрограммы в каталог моделей. Используем синтезатор для генерации обучающих данных вокодера:

 python3 vocoder_preprocess.py  

Наконец, обучаем вокодер:

 python3 vocoder_train.py  

Вокодер выводит сгенерированные аудиофайлы в директорию модели.

При возникновении вопросов относительно работы библиотеки мы также рекомендуем ознакомиться с диссертацией автора. Там же приведены ссылки на научные работы, посвящённые теме клонирования и изменения голоса.

Интересны ли вам проекты, связанные с дипфейками лиц и голоса? Будем рады вашим ответам в комментариях.

image@Maksobot — Добро пожаловать в «Бот Максим». Он умеет синтезировать написанный вами текст в голос робота. Максим создан исключительно в развлекательных целях и имеет множество настроек, таких как: изменение голоса, скорость воспроизведения, язык воспроизведения и эмоциональный тон голоса. Просто введите команду /say текст. Кстати бот пока в бета версии, поэтому текст с кавычками пока не признает:) Текст, который нужно озвучить. Для передачи слов-омографов используйте + перед ударной гласной. Например, гот+ов или def+ect. Контакты: @ziziboba

Оцените статью
Рейтинг автора
4,8
Материал подготовил
Максим Коновалов
Наш эксперт
Написано статей
127
А как считаете Вы?
Напишите в комментариях, что вы думаете – согласны
ли со статьей или есть что добавить?
Добавить комментарий