Meta Segment Anything Model Audio: Innovatives Modell zur Tontrennung
Das Meta Segment Anything Model Audio (SAM Audio) stellt ein Multi-Modal-Modell zur audiovisuellen Trennung von Tönen dar. Es ermöglicht mittels Text-, Bild- und Zeitspanne-Prompts, spezifische Töne aus komplexen Audioquellen zu isolieren. Dies umfasst allgemeine Geräusche, Musik und Sprache, was eine intuitive Geräuschbeseitigung und Klangisolation ermöglicht.
- SAM Audio trennt gezielt Ziel- und Resttöne aus jeder Audio- oder audiovisuellen Quelle.
- Benutzer können Text-Prompts zur Beschreibung des Zieltons verwenden.
- Visual-Prompts erlauben die Auswahl von Tönen durch Klicken im Video.
- Span-Prompts ermöglichen die Auswahl eines Punktes in der Zeitspanne mit dem Zielton.
- Das Modell bietet überlegene Leistung in der Sprach- und Musiktrennung.
- Es stellt erstmalig ein Bewertungssystem mit menschlich korrelierter Beurteilung vor.
- SAM Audio bietet eine offene Evaluation & Chancen für Innovation durch SpaRky-Startups.
👉 Zum ganzen Artikel: Meta Segment Anything Model Audio: Innovatives Modell zur Tontrennung
