Sync-Modell
Wähle das beste Modell zur Lyrics-Synchronisierung
Youka bietet verschiedene Methoden, um die Lyrics in deinen Karaoke-Tracks mit der Musik zu synchronisieren. Diese werden als Sync-Modelle bezeichnet. Es gibt zwei Haupttypen: Transkription und Alignment.
Modelltypen
-
Transkriptionsmodelle hören sich den Song an und versuchen, die Lyrics so aufzuschreiben, wie es auch eine Person tun würde – mit Technologie, die der Spracherkennung ähnelt. Allerdings sind die aufgeschriebenen Wörter möglicherweise nicht immer vollkommen korrekt.
-
Alignment-Modelle benötigen die Lyrics von dir. Anschließend versuchen sie, diese Lyrics mit dem Song abzugleichen. Wenn die Lyrics, die du bereitstellst, nicht exakt zum Song passen (z. B. wenn ein Refrain fehlt), kann das Timing in manchen Abschnitten etwas ungenau sein.
Verfügbare Modelle
AudioShakeAI (Transcription)
Das ist die beste Wahl und funktioniert so, dass zuerst die Lyrics transkribiert und anschließend mit der Musik abgeglichen werden. Es ist nur verfügbar, wenn du Pay-Per-Use nutzt oder eine Testversion verwendest, und die Verarbeitung kann bis zu 10 Minuten dauern.
AudioShakeAI (Alignment)
Dieses Modell kommt als Nächstes und gleicht die von dir bereitgestellten Lyrics mit der Musik ab. Wenn es Fehler in den Lyrics gibt, ist das Timing möglicherweise nicht perfekt. Es dauert außerdem bis zu 5 Minuten.
Wav2Vec2 (Alignment)
Das ist die dritte Option und funktioniert ähnlich wie AudioShakeAI, unterstützt jedoch fast alle Sprachen. Es ist schneller und ist in der Regel in bis zu 30 Sekunden fertig.
Whisper (Transcription)
Das ist die vierte Option und hört ebenfalls in die Musik hinein, um die Lyrics zu transkribieren, bevor sie synchronisiert werden. Die Lyrics sind möglicherweise nicht ganz exakt, aber das Timing sollte solide sein; die Verarbeitung dauert bis zu 2 Minuten.