Wie Medien und Marken Voice Cloning für sich nutzen können

Business

Der Trend Voice Cloning kommt in der Medienwelt und im Marketing an. Mit KI lassen sich menschliche Stimmen leicht und schnell synthetisch reproduzieren.

Björn Ühss, Co-founder & CCO

April 10, 2024

Der Trend Voice Cloning kommt in der Medienwelt und im Marketing an. Mit KI lassen sich menschliche Stimmen leicht und schnell synthetisch reproduzieren.

Lese den Originalartikel von Guido Schneider und Interview mit Björn Ühss in Horizont hier.

Innerhalb kürzester Zeit hat die künstliche Intelligenz vieles in der Audiowelt grundlegend verändert. Das gilt auch für einen Teilbereich, der bis vor Kurzem nur wenige Spezialisten interessierte. Es geht um das Nachahmen von menschlichen Stimmen, um diese in anderen Kontexten nutzen zu können. Das sogenannte Voice Cloning macht es möglich, Stimmen mittels künstlicher Intelligenz (KI) und maschinellem Lernen so nachzubilden, dass sie sich (fast) wie das Original der Sprechenden anhören. Solche Stimmen klingen zudem authentischer als rein synthetische Stimmen und wirken sympathischer, auch weil sie besser Emotionen vermitteln können. Das hat Vorteile, die Unternehmen, Medien und Werbung nutzen können. So lassen sich nachgebildete Stimmen etwa dazu nutzen, die Botschaften von Marken mit deren markenspezifischer Stimme zu personalisieren oder in verschiedenen Sprachen zu nutzen, ohne dass der Sprecher alles selbst einsprechen muss. Medien nutzen das Voice Cloning etwa dazu, um Texte mit den geklonten Stimmen ihrer Redakteure automatisiert in Audio-Formate zu verwandeln. Und der Audiowerbung können sie dabei helfen, die Spots einer Kampagne in vielen unterschiedlichen Varianten automatisiert und skalierbar nach Zielgruppen auszuspielen, ohne dass die Produktionskosten ausufern.

"Der Vorteil, eine eigene synthetische Stimme zu erstellen oder zu klonen, liegt klar in der Flexibilität und Emotionsfähigkeit der Stimmen", betont Björn Ühss, Gründer von Audiostack.ai, einem Start-up, das KI-basierte Produktionstools für die Audiobranche erstellt. Mit solchen nachgeahmten Stimmen können sich Marken auch im Wettbewerb differenzieren. Voice Cloning gab es zwar schon vor der großen KI-Welle; sie zu erstellen, war allerdings viel zeitraubender. "Was früher oft mehr als 10 Stunden an Datenmaterial und Monate an Aufwand benötigte, lässt sich heute bereits ab einer Stunde mit gutem Datenmaterial für schnelle Anwendungsfälle erstellen", sagt Ühss. Die technischen Prozesse dahinter seien zwar kompliziert, so Ühss. "Der Trend geht aber klar nach unten, was Datenmenge und Schnelligkeit von Stimmen-Klonen angeht." Bis Ende des Jahres will Audiostack in der Lage sein, mit weniger als 5 Minuten Datenmaterial eine Stimme zu klonen oder zu synthetisieren. Dann soll das junge Unternehmen 3000 bis 5000 solcher Stimmen in seiner Datenbank haben; derzeit sind es schon mehr als 1200 in 75 Sprachen.

Auch bei Studio Funk ist das Nachbilden von Markenstimmen ein zentrales Thema. "Wir sind in der Lage, die meisten professionellen Sprecher:innen klonen zu können", behauptet Geschäftsführer Torsten Hennings, für den die Technologie die "Möglichkeiten der Audiovisualität ganz erheblich" erweitert. So lassen sich Markenstimmen konservieren und allzeit verfügbar machen, können also auch dann genutzt werden, wenn der Sprechende nicht zu Drehterminen erscheinen kann, krank oder im Urlaub ist. Insgesamt stellt KI für den Studio-Funk-Chef eine Bereicherung dar und ermöglicht dem Tonstudio, akustisch neue Wege zu gehen. Hennings betont aber auch, dass Voice Cloning den geltenden Datenschutzrichtlinien entsprechen muss: "Compliance ist ein sehr wichtiges Thema im gesamten Bereich der KI. Kein Cloning ohne Zustimmung der Voice Talents." Zudem sei die Stimme durch das Allgemeine Persönlichkeitsrecht geschützt. Um Missbrauch zu verhindern, speichert Studio Funk die Daten seiner Kunden und Sprecher auf eigenen Servern in Deutschland, die laut Hennings "höchsten Sicherheitsstufen entsprechen". Beim Konkurrenten Audiostack sind die geklonten Stimmen immer nur für den Urheber sowie die zuständigen Personen in den Unternehmen verfügbar und mit Zugriffsrechten und Kontrollen geschützt. Auch werden die Stimmen – anders als bei anderen Audio-Spezialisten – nicht dazu verwandt, die eigenen Modelle zu trainieren, bekräftigt Ühss. Der Audiostack-Gründer will alles daransetzen, um mithilfe von KI die Audioproduktion einfacher, schneller und flexibler zu machen und so auch neue Werbekunden an Audio heranzuführen. "Ob Bäcker, Friseur, Sparkasse oder das nächste lokale Event – Radiowerbung wird so auch für neue Zielgruppen mit kleinem Budget interessant. Das gibt den Sendern mehr Kunden, Umsätze und Zeit", wirbt er in eigener Sache. Um den Weg zum Ziel zu verkürzen, bietet Audiostack unter anderem einen KI-basierten Spot-Creator an, mit dem sich "professionelle Radioanzeigen mit hochwertigem Klang in weniger als 30 Sekunden" erstellen lassen, so Ühss. Das Tool steht auf der Website von Audiostack jedem zur Verfügung, kann aber auch von Unternehmen als White-Label-Lösung eingesetzt werden. Der Nutzende muss lediglich einfache Stichpunkte eingeben, dann erzeugt das Tool automatisch mehrere Textvorschläge, sucht die passende synthetische KI-Stimme und Musik. Wenn man Ühss glauben will, produziert der Spot Creator "das Ganze wie in einem Tonstudio fix und fertig für die Einbuchung". Er selbst spricht von einem "Turbo Ad Creation Tool", das den Verkaufsteams der Sender und den Kunden viel Spaß mache, weil sie ohne Erfahrung personalisierte Demos erstellen und Spotversionen schnell testen können. "Das gibt Audio-Verkäufern mehr Zeit für ihre Kunden, schafft mehr Wert und treibt extra Umsatz", so Ühss. Andere Audioanbieter halten ähnliche Instrumente zur automatisierten Spoterstellung vor. So etwa das Produktionsstudio Krane & Rabe mit seinem Tool SamAgain oder der RadioAdMaker von Radio Gong 96,3 (Ausg. 18-19/2023).

Studio-Funk-Chef Torsten Hennings reißen diese Selbstnutzungs-Tools nicht vom Hocker. "Ich habe noch keinen komplett KI-generierten Radiospot-Case gehört, der mich klanglich und vom Qualitätsniveau her überzeugt hat, eher im Gegenteil." Viele Werbekunden nutzen sie für Abverkaufswerbung und drücken dabei in kreativer Hinsicht "auch mal ein Auge zu", wie Hennings beobachtet: "Aber genau das ist fatal." Denn auch für diese Werbung müsste der höchste Qualitätsanspruch gelten, um als Marke akustisch bei der Zielgruppe Haltung zu zeigen. Hennings findet zudem die Auswahl der Sprechenden nicht unproblematisch, denn Werbekunden können nicht einschätzen, wer die ausgewählte Stimme sonst noch einsetzt. Im schlimmsten Fall ist es der direkte Mitbewerber. Auch den Umstand, dass Spots tausendfach erzeugt und programmatisch ausgespielt werden, birgt für ihn Gefahren. Zum Beispiel, indem unrichtige Angaben, Preise oder Angebote in die verschiedenen Ausspielregionen gehen. Hennings plädiert stattdessen für eine Kombination aus Mensch und KI, um ein Höchstmaß an Kreativität und Produktionsqualität sicherzustellen.

Doch diese Qualität könnte sich künftig auch anders realisieren lassen. So hat Penny 2023 über 220 Filialen mit fast 3000 dynamisch erzeugten und personalisierten Audiospots beworben, um sich als Händler mit lokaler Verankerung zu profilieren. Dabei nutzte der LEH-Discounter das KI-Tool SARA, das die Omnicom Media Group Germany (OMG) zusammen mit Audiostack entwickelt hat. Dass diese Kampagne kreative Defizite aufwies, weil sie KI-basiert, automatisiert und programmatisch ausgespielt wurde, weist Carsten Becker entschieden zurück. "Die Idee für eine dynamische Audiokampagne stellt an sich schon einen kreativen Schaffungsprozess dar", hebt der Managing Director bei OMG Germany hervor. Außerdem sei bei allem Daten- und Technologieeinsatz das eigentliche Ziel nicht aus den Augen verloren gegangen, nämlich gute Werbung zu machen, die bei den Hörenden im Kopf bleibt. Becker verweist auch darauf, dass Werbekreative von Serviceplan in die Kampagne einbezogen waren. Die dynamische Spot-Erzeugung sieht er vielmehr als Chance, weil sich mit ihr kreative Ideen ausprobieren und verschiedene Spot-Varianten testen lassen. Die Penny-Kampagne hat laut Becker zudem gezeigt, dass sie die Markendimension Nähe als den strategisch wichtigsten KPI gefördert habe. Wie eine Befragung ergab, haben 75 der Personen bemerkt, dass Penny in dem Spot eine Filiale in ihrem Umkreis beworben hat.

Stefan Mölling, CEO beim Audiovermarkter RMS, wertet die Kampagne von Penny sogar als "Meilenstein, der die Branche nicht nur voranbringt, sondern in dieser Größenordnung neu definiert". Der Vermarkter war maßgeblich an der programmatischen Ausspielung der Spots beteiligt. RMS nutzt seit Dezember aber auch den Spot Creator von Audiostack und wird ihn ab April mit einer KI-basierten Version des Audio-Tech-Spezialisten anbieten. Schon nach wenigen Monaten zeigt sich Mölling angetan von dem Tool. Ein erster Case mit SunExpress Airlines hat für ihn gezeigt, dass automatisierte und skalierbare Audiowerbemittel sogar eine dreimal höhere Klickrate als der Durchschnitt erzielen können. Das Interesse am RMS Spot Creator ist zudem groß, so Mölling: "Die Nachfrage steigt, denn die Kunden schätzen die neue Möglichkeit, Audiospots in Echtzeit zu erstellen."

About AudioStack

AudioStack is the world's leading end-to-end enterprise solution for AI audio production. Our proprietary technology connects AI-powered media creation forms such as AI script generation, text-to-speech, speech-to-speech, generative music, and dynamic versioning. AudioStack unlocks cost and time-efficient audio that is addressable at scale, without compromising on quality.

LinkedIn Book a Demo