Tous les Docs
Paramètres

Modèle de synchronisation

Choisir le meilleur modèle de synchronisation des paroles

Youka propose différentes méthodes pour associer les paroles à la musique dans vos pistes de karaoké, appelées modèles de synchronisation. Il existe deux types principaux : la transcription et l’alignement.

Types de modèles

  • Les modèles de transcription écoutent la chanson et essaient de retranscrire les paroles comme le ferait une personne, à l’aide d’une technologie similaire à la reconnaissance vocale. Cependant, les mots retranscrits peuvent ne pas être parfaitement exacts.

  • Les modèles d’alignement nécessitent que vous fournissiez les paroles. Ils essaient ensuite de faire correspondre ces paroles avec la chanson. Si les paroles fournies ne correspondent pas exactement à la chanson (par exemple, s’il manque un refrain), le timing peut être légèrement décalé à certains endroits.

Modèles disponibles

AudioShakeAI (Transcription)

C’est le meilleur choix : il commence par retranscrire les paroles, puis les synchronise avec la musique. Il n’est disponible que si vous êtes un utilisateur Pay-Per-Use ou en période d’essai, et peut prendre jusqu’à 10 minutes.

AudioShakeAI (Alignment)

Vient ensuite : il synchronise les paroles que vous fournissez avec la musique. S’il y a des erreurs dans les paroles, le timing peut ne pas être parfait. Cela peut aussi prendre jusqu’à 5 minutes.

Wav2Vec2 (Alignment)

C’est la troisième option : elle fonctionne comme AudioShakeAI, mais prend en charge presque toutes les langues. Elle est plus rapide et se termine généralement en 30 secondes maximum.

Whisper (Transcription)

C’est la quatrième option : elle écoute également la musique pour retranscrire les paroles avant de les synchroniser. Les paroles peuvent ne pas être parfaitement exactes, mais le timing devrait être correct, avec un temps de traitement allant jusqu’à 2 minutes.