by

RTL Deutschland synthetisiert SprecherInnen für personalisierte Audioangebote

Visual Maik Meuser und Inken Wriedt, RTL Deutschland Visual vor Code Screen
RTL-Moderator Maik Meuser, Podcast-Host Inken Wriedt

Die Synthetisierung von Stimmen soll eine Vielzahl neuer, personalisierbarer Medienangebote ermöglichen, wenn es nach RTL Deutschland geht. Der Medienkonzern treibt derzeit die Entwicklung so genannter „Text-to-Speech“-Angebote voran.

Dabei werden geschriebene Texte mittels Künstlicher Intelligenz in lebensechte Sprache umgewandelt. Das Projekt ist Teil einer Partnerschaft für technologische Innovationen in den Bereichen Medien und Bildung von Bertelsmann mit dem Technologieunternehmen Microsoft und entstand in Zusammenarbeit mit der Softwareagentur Appsfactory. Gefördert wird das Projekt vom Journalismus Lab der Landesanstalt für Medien NRW.

Für einen Showcase hat RTL Deutschland die Stimmen von RTL-Moderator Maik Meuser und Podcast-Host Inken Wriedt aufgenommen und durch ein künstliches neuronales Netz synthetisiert, das jetzt die neuen Text-to-Speech-Anwendungen von RTL ermöglicht. Aus vier Stunden gesprochenem Text sind im Rahmen des Projekts lebensechte, natürlich klingende Versionen der Stimmen entstanden, die vom menschlichen Original nicht mehr zu unterscheiden sind, heißt es seitens RTL Deutschland. Alle Stimmen, die den Nutzerinnen und Nutzern vertraut sind, können so in vielen Bereichen zum Einsatz kommen.

Anwendungsmöglichkeiten sind beispielsweise personalisierbare Audio News Briefings oder die ab sofort verfügbare Vorlesefunktion bei den textbasierten Online-Nachrichtenangeboten von RTL und ntv. Der Abruf kann über Smart Speaker ebenso erfolgen wie über In-Car-Entertainment-Systeme oder die Onlineangebote von RTL Deutschland. Auch im Bereich der digitalen Bildung kann KI unterstützen wie beispielsweise bei funktionalen Texten in Schulungsvideos. Hier ist RTL Deutschland im engen Austausch mit Relias, einem Unternehmen der Bertelsmann Education Group, die weltweit einer der Anbieter digitaler Bildung speziell für das Gesundheitswesen ist.

RTL Deutschland betont in der Pressemitteilung, dass das Pilotprojekt strengen ethischen Vorgaben folgen würde, die in den Richtlinien von Microsoft für den verantwortungsvollen Umgang mit künstlicher Intelligenz festgeschrieben seien. Demnach würden synthetische Stimmen bei künftigen Einsätzen für die NutzerInnen klar erkennbar gekennzeichnet. Auch inhaltlich gäbe es klare Richtlinien. Ausgeschlossen von der Synthetisierung mittels KI seien beispielsweise alle Inhalte, die die Meinungsbildung manipulativ beeinflussen könnten. Zu diesen Fragen soll sich das Projektteam im Austausch mit der Medienanstalt NRW befinden.