Erfüllen Video-Avatare und Voice-Cloning unsere Erwartungen?

Kann man echte Personen noch von Avataren unterscheiden? Und wie sieht es mit geklonten Stimmen aus? Können sie mit der Kunst von professionellen Sprecher:innen mithalten?

Vor ein paar Monaten haben mein Team und ich einem eLearning-Kunden den Stand der Dinge vorgestellt. Wir hatten Heygen* mit bestehenden Studio-Aufnahmen eines Dozenten und ElevenLabs** mit seinen Stimmproben gefüttert. Die Audioaufnahmen aus Elevenlabs haben wir dann mit dem Video-Avatar von Heygen kombiniert. Die Ergebnisse waren beachtlich – aber für eine Umstellung der Produktion von echten Dozenten im Studio auf Avatare nicht gut genug.

* Heygen gehört zu den beliebtesten Plattformen zur Erzeugung von Avataren. Dort kann man auch auf eine große Zahl an „Fertig-Avataren“ zugreifen.

** Eleven Labs gehört zu den beliebtesten Voice-Cloning-Plattformen. Dort kann man „Stimm-Avatare“ produzieren.

Ein paar Monate später haben wir den Test nun wiederholt und dieses Mal nicht mit bereits bestehendem Material gearbeitet, sondern exakt die Anweisungen von Heygen für ganz frische Studioaufzeichnungen befolgt. So ist meine Avatarin entstanden. Die Kritikpunkte sind allerdings weitestgehend dieselben geblieben:

Die Hauptkritikpunkte
Es wird klar, dass die KI die Welt nicht versteht. Was zur Folge hat, dass häufig Gestik und Mimik nicht zum gesprochenen Inhalt passen. Der Avatar sagt zum Beispiel etwas Ernsthaftes und lächelt. Oder Gesten kommen an Stellen vor, wo sie nicht passen.
Beim Voice-Cloning passiert etwas Ähnliches. Die geklonte Stimme entspricht vom Klang her dem Original. Sie ahmt sogar einige Eigenheiten, wie Ansätze von Dialekt, nach. Aber die Betonung von Inhalten liegt noch häufig daneben.

Und diese Betonung ist nicht regulierbar – wie im Tonstudio mit einem Profisprecher („Betone doch bitte das Wort XYZ“). Auch der Sprach-Stil (etwa dramatisch, gleichgültig, sachlich, bestimmt, freundlich, elegant, beschwingt etc.) lässt sich nur bedingt beeinflussen. Mehr dazu erfahrt Ihr in dritten Part meiner Video-Avatar-Reihe „Voicecloning – Klingt mein Klon wie ich?“

Achtet einmal in meinem Video Part 1 darauf, wie meine Avatarin sagt: „Nein, das ist nicht ganz richtig. Ich bin die Avatarin von Karin.“ Die Betonung sollte hier auf dem Wort Avatarin liegen. Das gelingt aber nicht.