Neue Studie zeigt: Voice-Clones klingen menschlicher als gedacht
Eine aktuelle Studie zeigt auf: KI-Stimmen sind inzwischen kaum noch von echten Menschen zu unterscheiden. Forscher warnen vor Folgen für Sicherheit, Medien und Urheberrecht.
Künstliche Intelligenz soll laut einer aktuellen Untersuchung der Queen Mary University of London 2025 ein neues Realismusniveau in der Spracherzeugung erreicht haben. Die Forscher geben an, dass synthetische Stimmen kaum noch von echten Sprechern zu unterscheiden seien. Getestet wurden demnach sowohl vollständig generierte Stimmen als auch Klone realer Personen.
Nach Angaben der Autoren lag die Fehlerrate bei den Klonen bei über 50 Prozent. In 58 Prozent der Fälle hätten Testpersonen eine durch künstliche Intelligenz erzeugte Stimme für echt gehalten. Nur geringfügig mehr (62 Prozent) seien korrekt als menschlich erkannt worden. Der Unterschied sei statistisch kaum noch messbar. Während generische Stimmen weiterhin leicht künstlich wirkten, sollen Klone realer Sprecher inzwischen eine Qualität erreichen, die reale Aufnahmen nahezu ersetzt.
Die Forscher berichten, dass sie handelsübliche Tools verwendet haben, darunter Software von ElevenLabs. Bereits vier Minuten Audiomaterial hätten genügt, um eine Stimme detailgetreu nachzubilden, und zwar inklusive Tonfall, Pausen und Intonation. Laut Studie eröffnen solche Verfahren zwar neue Möglichkeiten, bergen aber auch erhebliche Risiken. Stimmen aus künstlicher Intelligenz könnten Anrufe, Interviews oder ganze Gespräche fälschen. Auch biometrische Systeme, die auf Sprachmuster setzen, ließen sich damit täuschen.
Auch Synchronsprecher Bodo Henkel (Xardas, Gothic) und Françoise Cadol (Lara Croft, Tomb Raider) haben sich öffentlich gegen künstlich erzeugte Nachbildungen ihrer Stimmen gewehrt. Die Forscher verweisen darauf, dass künstliche Stimmen künftig nicht nur in Unterhaltung, Werbung und Spielen, sondern auch in sicherheitsrelevanten Bereichen eine Rolle spielen könnten. Wie sich Authentizität und Schutz persönlicher Sprachdaten in Zukunft sichern lassen, bleibt vorerst offen.
Wie sollte mit künstlich erzeugten Stimmen künftig umgegangen werden? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Beachten Sie beim Kommentieren aber bitte die Forenregeln. Folgen Sie uns außerdem für Neuigkeiten in der Hardware-Welt oder unsere exklusiven Inhalte gern auf Whatsapp und X. Unsere Video-Inhalte (oftmals gewürzt mit einer Prise Humor) finden Sie bei Youtube, Instagram und Tiktok.
Quelle: Pub Med Central via Livescience

Perso? Wie oft musstest du den bisher vorzeigen?
Als Teenager wurde ich ständig nach einem gefragt. So im Alltag brauch ich den schon nicht. Für sonstige Sachen bei denen ich mich ausweisen muss, weiss ich vorher, dass ich ihn brauche.
Den Rest brauch ich auch nicht täglich.
Ich kenne einige die das genauso handhaben.
Schlüsselbund, Autoschlüssel, Handy, Geldbeutel... Braucht man ja als Mann mittlerweile ne Handtasche.
Hätte da einer über Maßen so eine Methode wie du sie beschreibst angewandt, hätte ich ihn eher überzeugt, bevor ich meine Klingel ausschalte.
Aber mal angenommen, wie gesagt ohne Kenntnis über die Verträge zu haben, dass die Beauftragung mit einschloss, dass die Rechte an der Vertonung, samt der weiteren, im Vertrag nicht besonders detailreich ausgeführten, sondern als allgemein bezeichneten Verwendungen beim Auftraggeber liegen und diese Rechte somit inbegreifen, dass dieser die Aufzeichnungen mit allem was mit der Marke in Verbindung stehenden Zwecke, nutzen darf wie er sie möchte:
Dann würde das Recht ja nicht außerkraft treten, weil sich die Technik weiter entwickelt hat.
Zum Zeitpunkt hätte man sich vielleicht gedacht, dass der Auftraggeber beliebig schneiden darf und die Aufnahmen z.B. auch unbegrenzt für Trailer und Remaster verwenden darf.
Und die heutige Realität wäre dann aber, dass für die Vertonung einer Fortsetzung, der Sprecher nicht mehr notwendig ist, die alten Aufnahmen fürs Training genutzt wurden und das Ergebnis ihn nun ersetzt haben.
Oder gibt's ne GEMA für Synchronstimmen?
Sprechanlage. Keine Videosprechanlage. Also wenn da Familie unten klingelt, betätigte ich (Trommelwirbel) nur anhand der Stimme die ich im Apperat hörte den Summer. Die Wohnungseingangstür ließ ich offen stehen und setzte mich halt wieder da hin wo ich zuvor war oder ging meiner Tätigkeit nach die ich bis dahin ausübte. Ohne dabei wie ein Hündchen an der Tür zu warten.
Lebensgefährlich. Ich weiss.
"Automatisch übersetzt" ist einfach nur furchtbar!
Vor kurzem hatte ich ein ein Video aufgerufen bei dem YT mal wieder dachte es wäre "intelligent" mir eine Übersetzung zu liefern (normalerweise höre ich das englische Original), bei der doch tatsächlich die Stimme einer weiblichen Sprecherin durch eine männliche ersetzt wurde....wahrscheinlich war ihre Stimme zu tief.
War schon immer Multilingual....
Aber mal angenommen, wie gesagt ohne Kenntnis über die Verträge zu haben, dass die Beauftragung mit einschloss, dass die Rechte an der Vertonung, samt der weiteren, im Vertrag nicht besonders detailreich ausgeführten, sondern als allgemein bezeichneten Verwendungen beim Auftraggeber liegen und diese Rechte somit inbegreifen, dass dieser die Aufzeichnungen mit allem was mit der Marke in Verbindung stehenden Zwecke, nutzen darf wie er sie möchte:
Dann würde das Recht ja nicht außerkraft treten, weil sich die Technik weiter entwickelt hat.
Zum Zeitpunkt hätte man sich vielleicht gedacht, dass der Auftraggeber beliebig schneiden darf und die Aufnahmen z.B. auch unbegrenzt für Trailer und Remaster verwenden darf.
Und die heutige Realität wäre dann aber, dass für die Vertonung einer Fortsetzung, der Sprecher nicht mehr notwendig ist, die alten Aufnahmen fürs Training genutzt wurden und das Ergebnis ihn nun ersetzt haben.
Oder gibt's ne GEMA für Synchronstimmen?
Und Bargeld, gibts im meinem Geldbeutel tatsächlich nicht mehr.
Suchen müsste sie es nicht, da es zugänglich auf der Kommode liegt und ich das auch nicht immer mit mir führe.
Also auch bei näherer Betrachtung kommt mir dieses Verhalten nicht so exotisch vor, als dass es nicht auch einige andere so handhaben.
So persönliches Eigentum in einer Ehe, ist auch gar nicht mehr nur das eigene Eigentum. Verschmilzt alles so bisschen. Mann hat weniger, aber das ist wahrscheinlich auch interessenbedingt.
Du bist auf Arbeit nicht erreichbart? Oh. Na dann. Ok.
Sprechanlage. Keine Videosprechanlage. Also wenn da Familie unten klingelt, betätigte ich (Trommelwirbel) nur anhand der Stimme die ich im Apperat hörte den Summer. Die Wohnungseingangstür ließ ich offen stehen und setzte mich halt wieder da hin wo ich zuvor war oder ging meiner Tätigkeit nach die ich bis dahin ausübte. Ohne dabei wie ein Hündchen an der Tür zu warten.
Lebensgefährlich. Ich weiss.