KI / Tools / Audio
„Jetzt. Links. Abbiegen.“ – die Sprachausgaben von Navis haben uns oft mit ihrem roboterhaften, blechernen Klang zum Lachen gebracht. Siri, Alexa und Ok Google waren da schon anders und jetzt verschlägt es uns die Sprache, wenn wir hören, wie weit KI bei Stimmen und Sprache mittlerweile ist. Ob mit der eigenen Stimme oder einer geliehenen, ob in unseren Muttersprachen oder welchen, die wir nie gelernt haben – KI spricht immer makelloser zu und mit uns. Das ist nicht nur im Alltag spannend, sondern auch für die Kommunikation von Unternehmen und Institutionen:
KI liest vor: TTS (Text to Speech)
Wer Sprecher:innen braucht, durchforstet eine Datenbank für ein passendes Aufnahmebeispiel. Das läuft auch mit KI so: In der Google Datenbank zum Beispiel werden über 380 Stimmen in über 50 Sprachen angeboten, die Sie z.B. für Produktvideos oder YouTube nutzen können. Noch ist das kein Ersatz für hochwertige Sprachaufnahmen in Filmen oder Podcasts, aber für edukative Filme wie Schulungs- oder Erklärvideos sind die Stimmen oft schon durchaus brauchbar.
Ob englisch oder deutsch, die Stimme passend zur Sprache gewählt werden, sonst kommt nur Kauderwelsch: Für TikTok wird eher die Sprachsoftware murf verwendet. Auch sie ist polyglott und spricht mehrere Sprachen wie Italienisch, Portugiesisch und sogar Tamilisch.
Die klingt wie ich: Voice Cloning
Kennen Sie den noch?
Pumuckl. Im Moment treibt er auf Kino-Leinwänden wieder allerhand Schabernack. Und im Gegensatz zu vielen Kinderfilmen, die irgendwann neu produziert wurden und neue Stimmen bekommen mussten, spricht er noch genau wie früher: mit der Stimme von Hans Clarin. Nur, dass die Stimme jetzt von einer KI kommt, die den Klang des verstorbenen Sprechers „geklont“ hat.
Mit dieser Methode können Kindheitsheld:innen erhalten bleiben und auch zum Beispiel mal heisere Hosts in Podcasts oder einer Morning Show entlastet werden. Apple bietet diese Feature auf IOS 17 übrigens allen User:innen an – erstmal aber nur auf Englisch.
Eine weniger schöne Verwendung findet die Technologie im Enkeltrick: Wo Stimmen gekapert werden, um Großeltern am Telefon weißzumachen, dass ihre Enkel:innen angeblich dringend Geld brauchen.
Wir sind bald alle multilingual: Übersetzungen
Sie sprechen nur 1-2 Sprachen und wollen aber ein globales Publikum erreichen? Daran arbeitet zum Beispiel Audio PaLM und übersetzt Gesprochenes in eine andere Sprache und versucht dabei die Stimme nachzuempfinden. Zum Beispiel von Deutsch auf Englisch oder von Serbisch ins Englische.
KI wie HeyGen kann in Videos sogar die Mundbewegung so verändern, dass sie zur angeblich gesprochenen Sprache passt. Das wird die Synchronisation in Filmen grundlegend verändern, denn die Originalschauspielenden müssen bald nicht mehr mühevoll und teuer übersetzt und nachvertont werden. Apps wie Deep Dub aus Israel stehen dafür schon in den Startlöchern.
Sprecht uns nach: STS (Speech to Speech) Conversion
Hier dient die eigene Sprachart als Vorlage für andere Stimmen. Dabei geht es nicht wie beim Cloning darum, die Stimme an sich zu übernehmen, sondern ihr Stimmmuster, die Betonung, das Sprachtempo und auch Räusperer oder „ähm“ und „öhm“ auf eine andere Stimme zu übertragen, um sie lebendiger zu machen.
So könnte ein Film in Zukunft von nur einer Sprecher:in eingesprochen, aber in alle verschiedenen Stimmen und Personen übertragen werden. Noch hört man dabei oft Akzente, aber an der Lösung dafür wird bereits gearbeitet: So wird dann aus einer Original-Aufnahme schnell eine weibliche Stimme oder ganz andere Sprecher:innen.
Fazit
KI hört sich schon ziemlich gut an, aber noch ist sie nicht auf menschlichem Niveau: Menschliches Knowhow und unsere Vorstellungskraft und Ziele sind noch unabdingbar. Davon abgesehen treten natürlich auch hier Urheber- und Persönlichkeitsrechtsfragen auf. Und nicht zu vergessen: Die Deep Fakes, die KI für Abzocke und Betrug nutzen. Es wird also darauf ankommen, dass wir einen guten Umgang damit finden, der uns Arbeit, Aufwand und Kosten abnimmt, aber nicht zu Missbrauch führt.