Transcript for:
Создание модели собственного голоса с помощью нейросети

Сегодня мы как всегда бесплатно создадим модель собственного голоса с помощью нейросети и заставим эту модель звучать как профессионального певца побу бни в микрофон споём песню эда ширана и рассмотрим парочку классных сервисов которые будут нам с тобой в этом помогать с вами как всегда Сергей поехали поехали а с какой стороны я Машу с вами как всегда Сергей поехали а нормально меня тут засвечивает то солнышко А ну ничего будет с этим солнечным зайчиком не досмотрел сорямба сервисы которые мы будем сегодня использовать они условно бесплатные то есть есть бесплатный тариф есть платные тарифы но под нашу задачу нам Вполне себе хватит и бесплатных возможностей как обычно все ссылки будут не переживайте мы возьмём песню Perfect от эда ширана разделим её на вокал и на музыку далее мы на тренируем свою собственную модель голоса которую ты дальше сможешь использовать в любых своих других целях например для озвучки переозвучки дубляжа генерации аудио из текста с собственным голосом и так далее постараюсь уложиться в 10 минут также скажу что оригинальный трек от эда ширана я не буду здесь включать от греха подальше чтобы мне не прилетели авторские права на это видео но мы всё разберём Шаг за шагом и в конце мы получим результат результат вместе Прослушай А все оригиналы и миксы я оставлю в телеграме сможешь пройти ознакомиться как это всё звучит в проце и там же будут ссылки на все сервисы давай начинать Проваливай в сервис в этом сервисе есть много разных прикольных вещей здесь есть голоса популярных исполнителей которые реальные люди но они доступны по платной подписке также есть бесплатные голоса тоже которые качественно звучат Вот давай послушаем у нас здесь есть функция голос в инструмент то есть можешь чего-то там на превратить это всё дело например в партию гитары но нас здесь интересует первым делом это натренировать собственную модель голоса чтобы натренировать нашу собственную модель голоса нам нужно записать аудио Желательно без каких-либо шумов артефактов и так далее для этого на самом деле подойдёт просто телефон какая-нибудь Тихая комната просто в телефон на диктофон мы на диктовали и всё в этом примере видео Я записал несколько сэмплов То есть я записал один просто голос свой я говорю на русском языке и второй вариант - это я записал две как могу песни под гитару на английском и я буду тренировать отдельно на русском и отдельно на английском и посмотрим какая будет разница как эта нейросеть будет обрабатывать здесь Ты можешь ознакомиться с тарифами то есть на стартовом пакете нам дают 15 минут конвертации в месяц два слота для наших голосов и 300 символов текст в аудио вмест ты кстати можешь натренировать абсолютно любой чужой голос это информация только в образовательных целях это кавычки Если что у меня такие так вот ты можешь удалять загружать новые модели на основе их уже работать с нейросетью Давай натренировать на примере русского моего сэмпла нам нужно просто нажать слева в меню вот здесь тренировка голоса нажимаем здесь всплывающее окно можно почитать также для платных пользователей ты можешь натренировать просто взять YouTube видео загрузить их сюда по ссылке и сделать свой датасет Но у нас бесплатный тариф поэтому мы нажимаем просто на кнопочку создать дальше логинится с помощью Гугла всё как обычно нажимаем на кнопочку создать и дальше мы попадаем на такую страницу что здесь важно сказать что перед тем как файлы загрузят нужно будет пройти верификацию с помощью Ватсапа то есть ничего сложного убиваешь свой номер на WhatsApp приходит вот такое вот сообщение вбиваешь эти Циферки и всё у меня уже этот процесс пройден поэтому идём дальше нажимаем на кнопочку создать дальше выбираем левый вариант так как правый - Это для платных пользователей нажимаем кнопку продолжить и сюда мы бросаем наши файлы Я в данном случае бросаю один файл это начитка на микрофон просто моих слов Вот что я там вообще в принципе говорю давай буквально 5 секунд послушаем запись для тренировки моделью моего голо этот файл я загрузил здесь мы выбираем просто название для нашего датасета я пишу обычный разговор микрофон здесь я выбираю Speaking То есть это обычный разговор и выбираю язык русский дальше нажимаю на кнопку Train тренировать если мы пойдём во вкладку My Voices то мы увидим что один датасет у меня уже натренированный Разговор в микрофон вот сейчас идёт Прогресс двигаемся дальше так как я хочу получить более точный результат я буду загружать сюда файлы тех песен которые я хочу перепеть с помощью своего голоса разделённые по аудио дорожкам на голос и на музыку Чтобы это сделать мы идём в другую нейросеть которая позволяет это сделать бесплатно По крайней мере на данный момент записи видео здесь нажимаем на кнопку загружаем файлы и когда процесс разбивки произошёл ты можешь нажать на кнопку Save справа и сохранить просто раздельно либо голос либо музыку либо И то и другое вместе я же сохранил себе отдельно вокал и отдельно музыку коротенько кусочка от эда ширана песни Perfect я её буду загружать дальше в сервис на основе неё мы будем делать наше аудио наша модель тем временем уже натренировать давай посмотрим что мы можем с ней сделать мы можем генерировать аудио из текста с нашим тембром голоса мы можем совмещать оригинальный голос вместе с нашим тембром и делать такой микс чем мы и занимаемся сейчас этот микс можно делать либо из загруженного в сервис файла либо же ещё другим способом о нём чуть дальше когда у нас тренировка полностью закончена Мы в разделе наши Голоса просто нажимаем здесь на кнопку use Boys то есть использовать голос нажимаем и Проваливай в такой вот интерфейс здесь справа у тебя ничего не будет никаких дорожек это уже то что я тренировался здесь на генерировать использовать нашу модель миксу я так сказать её с оригиналом нам нужно нажать на зелёненький именно вокальной партии потому что я заметил когда бросаешь вместе и вокал и инструменталка загружаю я сюда коротенький кусочек вокала ширана воспроизводить не буду изза авторских прав Дальше листаю вниз и нажимаю на кнопку convert Всё теперь нам остаётся немного подождать Давай посмотрим что у нас получилось с моделью которая натренированный русской [музыка] речью Ну всё я теперь Сергей широн на самом деле это очень-очень круто Теперь Только фантазия останавливает что можно с этим делать теперь следующий способ работы который на самом деле ещё проще но у него есть один минус потому что здесь будут получаться длинные видео и оно будет жрать очень сильно нам бесплатные наши вот эти регистрации но если ты там проплатил например или проплати тариф то почему нет покажу на своём примере у нас есть опять-таки наш шин что мы будем делать мы будем просто вставлять ссылку на видео из юба Для этого нам нужно переключиться с аудиофайл на YouTube здесь в месте где нам нужно Вставить ссылку мы просто вставляем ссылку на YouTube видео Я иду на YouTube видео это песня ширана официаль клип Я копирую ссылку Вставляю её в это место и так как песня У нас идёт 4,5 минуты естественно этот процесс будет чуть дольше И будет полная генерация на 4,5 минут то есть будет полностью мой вокал совмещённый с музыкой эда ширана но такое я точно не буду здесь показывать я покажу Это в телеграме просто прикреплю к посту можешь зайти послушать Я послушал и получилось очень круто Это в стиле эда ширана это использует мой тембр голоса по крайней мере тот который Я использовал Когда читал в микрофон и вообще это прямо очередная магия которую Дарят нам нейросети вставили подождали готово звучит очень прикольно теперь ещё один момент Давай сравним тот голос который Я записывал просто русскую речь и тот голос который я наиграл чуть на гитаре потом вырезал чисто вокальную партию и натренировать на вокальной партии Будет ли какая-нибудь сильная разница если ты например не умеешь говорить на английском будет ли Важно тебе обучать модель на английском аудио Давай послушай Вот этот голос это с обычной моей разговорной [музыка] речи причём он там вот такой вот вот он более такой бубнящий у меня потому что вечер уже был А вот голос того что я спел под гитару естественно там более звонкий наподобие вот такого темра как сейчас я разговариваю просто сейчас говорю [музыка] громче вот такие вот результаты получились на самом деле разница не тотальная не какая-то катастрофическая но как по мне тот результат который мы получили с натренированный английской модели Да моей он более прикольный там какие-то мелизмы появляются ещё что-то Ну в общем более красивый но на самом деле первый вариант который мы просто сделали тренируя модель зачитывать микрофон русский текст тоже вполне себе крутой все ссылки и полные результаты без авторских прав смотри в телеграме обязательно глянь Вот это видео с вами был Сергей до связи