Youka ofrece diferentes métodos para hacer coincidir las letras con la música en tus pistas de karaoke, conocidos como modelos de sincronización. Hay dos tipos principales: transcripción y alineación.
- Modelos de Transcripción escuchan la canción e intentan escribir las letras como lo haría una persona, utilizando tecnología similar al reconocimiento de voz. Sin embargo, las palabras que escriben pueden no ser perfectamente precisas.
- Modelos de Alineación necesitan que proporciones las letras. Luego intentan hacer coincidir estas letras con la canción. Si las letras que proporcionas no coinciden exactamente con la canción (como si falta un coro), el tiempo puede estar un poco desfasado en algunas partes.
Aquí están los modelos que usa Youka:
- AudioShakeAI (Transcripción): Esta es la opción principal y funciona primero escribiendo las letras y luego sincronizándolas con la música. Solo está disponible si eres usuario de Pago por Uso o estás usando una prueba, y puede tardar hasta 10 minutos en funcionar.
- AudioShakeAI (Alineación): Esta es la siguiente opción y hace coincidir las letras que proporcionas con la música. Si hay errores en las letras, el tiempo puede no ser perfecto. También tarda hasta 5 minutos.
- Wav2Vec2 (Alineación): Esta es la tercera opción y funciona como AudioShakeAI pero admite casi todos los idiomas. Es más rápido, generalmente termina en hasta 30 segundos.
- Whisper (Transcripción): Esta es la cuarta opción y también escucha la música para escribir las letras antes de sincronizarlas. Las letras pueden no ser exactas, pero el tiempo debería ser decente, tardando hasta 2 minutos en completarse.