Youka propose différentes méthodes pour faire correspondre les paroles à la musique dans vos pistes de karaoké, connues sous le nom de modèles de synchronisation. Il existe deux types principaux : la transcription et l’alignement.
- Les modèles de transcription écoutent la chanson et essaient de noter les paroles comme le ferait une personne, en utilisant une technologie similaire à la reconnaissance vocale. Cependant, les mots qu’ils écrivent peuvent ne pas être parfaitement exacts.
- Les modèles d’alignement nécessitent que vous fournissiez les paroles. Ils essaient ensuite de faire correspondre ces paroles avec la chanson. Si les paroles que vous fournissez ne correspondent pas exactement à la chanson (par exemple, si un refrain manque), le timing peut être légèrement décalé par endroits.
Voici les modèles utilisés par Youka :
- AudioShakeAI (Transcription) : C’est le choix principal et il fonctionne en notant d’abord les paroles puis en les faisant correspondre à la musique. Il est disponible uniquement si vous êtes un utilisateur Pay-Per-Use ou en essai, et cela peut prendre jusqu’à 10 minutes pour fonctionner.
- AudioShakeAI (Alignement) : Vient ensuite et fait correspondre les paroles que vous fournissez à la musique. S’il y a des erreurs dans les paroles, le timing peut ne pas être parfait. Cela prend également jusqu’à 5 minutes.
- Wav2Vec2 (Alignement) : C’est la troisième option et fonctionne comme AudioShakeAI mais prend en charge presque toutes les langues. C’est plus rapide, généralement terminé en 30 secondes.
- Whisper (Transcription) : C’est la quatrième option et écoute également la musique pour noter les paroles avant de les synchroniser. Les paroles peuvent ne pas être exactes, mais le timing devrait être correct, prenant jusqu’à 2 minutes pour se terminer.