Zurück zur Website

Spricht Microsofts Vall-E zukünftig eure Podcasts?

 

13. Januar 2023

Die #CES2023 hat es gezeigt: 2023 scheint das Jahr der künstlichen Intelligenz zu werden. Neben #OpenAI und dessen #ChatGPT, #Midjourney und #StableDiffusion steigt nun Microsoft mit einer eigenen KI (#VAllE )für Stimme in den Ring. Bei Microsoft umschreibt man die Funktion wie folgt:„Vall-E entwickelt kontextbezogene Lernfähigkeiten und kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer 3-sekündigen Aufnahme eines unbekannten Sprechers als akustische Aufforderung zu synthetisieren.“

Dem Text-To-Speech (#TTS) KI-Modell reicht eine dreisekündige Originaldatei einer Sprachaufnahme, um diese perfekt zu imitieren. Hat die KI eine Stimme einmal erlernt, kann sie diese quasi alles sagen lassen. Das Erstaunliche hierbei: neben der Tonlage kann die KI auch Modulation, Sprach-Rythmus und emotionale Tonalität perfekt nachnahmen. Grundlage bildet hier die Metas Technologie #EnCodec.

Bei diesem Test von Microsoft wurden über 60.000 Stunden Audiodateien von 7.000 Personen (#LibriLight von Meta) in englischer Sprache ausgewertet und verwendet. Wenn man das nun weiter denkt: was haben Amazon, Google und Apple mit Ihren Siris & Co und solch einer Masse an Sprachmaterial für unendliche Möglichkeiten Stimmen perfekt zu reproduzieren? Daher stellen wir uns an dieser Stelle die Frage:

„Was sind mögliche Vor- und Nachteile einer solch perfekten Sprachsynthese in Bezug auf Podcasts?“

Vorteile und Möglichkeiten der Anwendung:

  • Jack Nicholson soll als Host in deinem Podcast eine Hauptrolle bekommen, du hast dein Budget aber schon größtenteils für die Produktion ausgeben? Hier würde sicher die KI zu einem wesentlich „vorteilhafteren“ Stundensatz einspringen und das Unmögliche möglich machen.
  • Podcasts können mit jeder beliebigen Stimme zeit- und ortsunabhängig eingesprochen werden
  • Podcasts können im Nachhinein inhaltlich korrigiert und angepasst werden, ohne das er von Personen neu eingesprochen werden muss
  • Schlechte Aufnahmequalität oder Störgeräusche in einer Remoteaufnahme? Dies stellt dank Stimmenoptimierung zukünftig auch kein Problem mehr dar
  • Sprecher krank und Produktion muss komplett umdisponiert werden? Sofern ein ausgearbeitetes Skript vorhanden ist, gehört auch dieses Schreckgespenst mit der KI der Vergangenheit an
  • Der Podcast Gast hat leider kurzfristig abgesagt -kann Vall-E hier übernehmen? Gar nicht mal so verrückt der Satz und Gedanke bei dieser Entwicklung.

Nachteile und ethische Fragen:

  • Potentielle Risiken durch die missbräuchliche Nutzung einer Stimme in Form von Fälschung oder Nachahmung eines gewissen Sprechers
  • „Das habe ich so nie gesagt“ wird dank KI mit einem Klick möglich. Vorhanden Sprachaufnahmen einer Person können sogar im Nachhinein verändert werden
  • Spontane Antworten, witzige Versprecher und authentische Aussagen? Der besondere „Tresentalk“ Charakter eines Podcasts geht unweigerlich verloren

Was ist eure Meinung dazu? Hinterlasst gerne einen Kommentar!

#CyberProtection #TTS #VAllE #podcast