Модель синхронизации
Выберите лучшую модель синхронизации текста
Youka предлагает разные способы сопоставить текст песни с музыкой в ваших караоке-треках — они называются моделями синхронизации. Есть два основных типа: транскрипция и выравнивание.
Типы моделей
-
Модели транскрипции слушают песню и пытаются записать текст так, как это сделал бы человек, используя технологии, похожие на распознавание речи. Однако записанные ими слова могут быть не полностью точными.
-
Модели выравнивания требуют, чтобы вы предоставили текст песни. Затем они пытаются сопоставить этот текст с песней. Если предоставленный вами текст не совпадает с песней в точности (например, отсутствует припев), тайминги местами могут немного сместиться.
Доступные модели
AudioShakeAI (Transcription)
Это лучший вариант: сначала он записывает текст песни, а затем сопоставляет его с музыкой. Доступно только для пользователей Pay-Per-Use или при использовании trial, и выполнение может занять до 10 минут.
AudioShakeAI (Alignment)
Следующий вариант: он сопоставляет предоставленный вами текст с музыкой. Если в тексте есть ошибки, тайминги могут быть неидеальными. Также занимает до 5 минут.
Wav2Vec2 (Alignment)
Третий вариант: работает как AudioShakeAI, но поддерживает почти все языки. Быстрее — обычно завершается максимум за 30 секунд.
Whisper (Transcription)
Четвёртый вариант: также слушает музыку, чтобы записать текст перед синхронизацией. Текст может быть не идеально точным, но тайминги должны получиться неплохими; выполнение занимает до 2 минут.