Создание модели собственного голоса с помощью нейросети

Jul 17, 2024

Создание модели собственного голоса с помощью нейросети

Введение

  • Лектор: Сергей
  • Цель: Создать модель собственного голоса с помощью нейросети и заставить её звучать как профессионального певца.
  • Пример: Песня "Perfect" Эда Ширана.
  • Сервисы: Рассматриваются условно бесплатные сервисы.

Подготовка

  • Запись аудио-образцов для тренировки модели.
    • Желательно без шумов и артефактов.
    • Можно использовать телефон и тихую комнату.
    • Пример аудио: русская речь и пение на английском.
  • Сервисы предоставляют ограниченные бесплатные возможности: 15 минут конвертации в месяц, два слота для голосов, 300 символов текста в аудио.

Тренировка модели

  • Шаги для тренировки:
    1. Запись/загрузка аудио в тихой обстановке.
    2. Верификация через WhatsApp.
    3. Выбор типа аудио (например, разговор) и языка.
    4. Начало тренировки.
  • Обзор текущего прогресса и работа с датасетами.
  • Натренировать модель можно как на русский язык, так и на английский.

Разделение вокала и музыки

  • Использование нейросети для разделения трека на вокал и музыку.
    • Пример: "Perfect" Эда Ширана.
    • Сохранение вокала и музыки отдельно.

Применение натренированной модели

  • Генерация аудио из текста с использованием собственного тембра голоса.
  • Миксирование оригинального вокала с натренированным голосом.
  • Демонстрация примеров и инструкции для сервисов.

Преимущества и ограничения

  • Ограничения бесплатных тарифов.
  • Возможность использования любого голоса в образовательных целях.
  • Разница в качестве между русскими и английскими образцами.
    • Пример: Тренировка на пении под гитару даёт более звонкий результат.
    • Итог: Натренированный голос лучше воспроизводит мелизмы и звучит натуральнее.
  • Оригинальные примеры и миксы доступны в телеграм-канале лектора.

Заключение

  • Варианты применения модели: дубляж, озвучка, генерация аудио из текста.
  • Призывы к ознакомлению с результатами и подписке на телеграм.
  • Финальное заключение: Магия нейросетей позволяет создавать высококачественные аудио-материалы собственным голосом.

С вами был Сергей. До связи!