Tous les Docs
Paramètres

Modèle de séparation

Choisissez le bon modèle de séparation audio selon vos besoins

Dans Youka, vous pouvez utiliser la fonctionnalité « Split model » pour séparer les voix des instrumentaux d’un morceau. Plusieurs options s’offrent à vous :

Demucs

Demucs (Deep Extractor for Music Sources) est un modèle d’apprentissage profond de pointe pour la séparation des sources musicales. Il fonctionne dans le domaine temporel, ce qui permet de préserver les détails temporels de l’audio, et s’appuie sur une architecture de réseau de neurones convolutionnel (CNN). Demucs est réputé pour la haute qualité de séparation des voix, de la batterie, de la basse et d’autres instruments, ce qui en fait un excellent choix pour des usages comme la création de karaokés et la production musicale.

MDX-23C

Le modèle MDX-23C est conçu pour des tâches avancées de demixing musical, en visant spécifiquement la séparation de la musique en quatre stems : bass, drums, vocals et other instruments. Ce modèle repose sur un mélange des architectures Demucs4 et MDX neural net, et intègre certains weights du projet Ultimate Vocal Remover. MDX-23C offre une séparation de haute qualité et est particulièrement efficace lorsqu’il est utilisé avec une configuration GPU puissante, ce qui en fait un choix solide pour les utilisateurs recherchant une séparation audio précise et de niveau professionnel.

ReFormer

ReFormer est un acteur relativement récent dans le domaine du demixing musical, connu pour son approche innovante de séparation des stems dans les pistes musicales. Il combine des techniques traditionnelles de traitement du signal avec des méthodes modernes d’apprentissage profond afin d’obtenir une séparation propre et précise. Ce modèle vise un bon équilibre entre qualité et vitesse de traitement, ce qui le rend adapté aussi bien aux utilisateurs professionnels qu’aux amateurs.

MDX-Net (with backing vocals)

MDX-Net est un réseau de neurones à deux flux spécifiquement développé pour le demixing musical, avec à la fois une branche time-frequency et une branche time-domain. Cette architecture permet au modèle de séparer les stems en analysant différents aspects de l’audio, en combinant les sorties des deux flux pour générer des séparations très précises. MDX-Net a prouvé son efficacité en obtenant des positions de premier plan dans des compétitions internationales de demixing musical, ce qui en fait une option fiable pour les utilisateurs qui ont besoin d’une grande précision dans leur traitement audio.