Modello di Separazione

In Youka, puoi utilizzare la funzione “Modello di Separazione” per separare le voci dagli strumentali in una canzone. Hai due opzioni:

  1. Demucs Demucs (Deep Extractor for Music Sources) è un modello di deep learning all’avanguardia per la separazione delle sorgenti musicali. Opera nel dominio del tempo, preservando i dettagli temporali dell’audio, e utilizza un’architettura di rete neurale convoluzionale (CNN). Demucs è noto per la sua alta qualità nella separazione di voci, batteria, basso e altri strumenti, rendendolo una scelta eccellente per compiti come la creazione di karaoke e la produzione musicale. Si è evoluto attraverso più versioni, ciascuna migliorando la precedente, ed è riconosciuto per le sue forti prestazioni nei benchmark del Rapporto Segnale-Distorsione (SDR)​ (GitHub)​ (QuadraphonicQuad).
  2. MDX-23C Il modello MDX-23C è progettato per compiti avanzati di demixing musicale, specificamente mirati alla separazione della musica in quattro stem: basso, batteria, voci e altri strumenti. Questo modello si basa su una combinazione delle architetture neurali Demucs4 e MDX e incorpora alcuni pesi dal progetto Ultimate Vocal Remover. MDX-23C offre una separazione di alta qualità ed è particolarmente efficace quando utilizzato con una potente configurazione GPU, rendendolo una scelta forte per gli utenti che cercano una separazione audio precisa e di livello professionale​ (GitHub)​ (QuadraphonicQuad).
  3. ReFormer ReFormer è un nuovo entrante nel campo del demixing musicale, noto per il suo approccio innovativo alla separazione degli stem nelle tracce musicali. Sebbene le informazioni dettagliate su ReFormer siano meno diffuse, si dice che combini tecniche di elaborazione del segnale tradizionali con metodi di deep learning moderni per ottenere una separazione pulita e accurata. Questo modello mira a bilanciare qualità e velocità di elaborazione, rendendolo adatto sia per utenti professionisti che per hobbisti.
  4. MDX-Net (con cori di sottofondo) MDX-Net è una rete neurale a due flussi specificamente sviluppata per il demixing musicale, caratterizzata sia da un ramo tempo-frequenza che da un ramo dominio del tempo. Questa architettura consente al modello di separare gli stem analizzando diversi aspetti dell’audio, combinando i risultati di entrambi i flussi per generare separazioni altamente accurate. MDX-Net ha dimostrato la sua efficacia assicurandosi posizioni di vertice nelle competizioni internazionali di demixing musicale, rendendolo un’opzione affidabile per gli utenti che necessitano di alta precisione nella loro elaborazione audio​ (GitHub).
What are your feelings
Updated on Agosto 28, 2024