KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

// 13:16 Do, 9. Mär 2023von Thomas Richter

Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder oder Enkel zu veranlassen, Geld an die Betrüger zu überweisen. Das funktioniert natürlich noch viel besser mit einer Stimme, die sich wirklich wie die des (Enkel-)Kindes anhört - und genau das ist mit modernen Stimmen-KIs, die jede Stimme täuschend echt nachahmen können, möglich.

Nur wenige Sekunden lange Audioaufnahmen (je nach verwendeter KI 3-30s) einer Stimme reichen, um diese täuschend echt zu imitieren. Solche Sprachaufnahmen zu finden, ist heutzutage kein Problem: auf YouTube, TikTok oder anderen Portalen finden sich leicht Videos samt Sprachaufnahmen von sehr vielen Menschen. Über soziale Netzwerke wie Facebook oder Instagram sind dann auch schnell ältere nähere Verwandte samt zugehöriger Telefonnummer ausfindig gemacht.

KIs imitieren Stimmen perfekt - Vorsicht vor anrollenden Betrugswellen

Die Washington Post berichtet jetzt von genau einem solchen Fall, in welchem Eltern einen Anruf von einem angeblichen Anwalt erhielten, der ihnen mitteilte, ihr 39-jähriger Sohn habe jemanden bei einem Autounfall getötet, säße jetzt im Gefängnis und bräuchte Geld für seine Anwaltskosten. Der scheinbare Anwalt holte dann den Sohn ans Telefon, der überzeugend seinen Eltern versicherte, dass er sie liebe und jetzt dringend 21.000 Dollar für das Gericht brauche.

Welche KI die Betrüger verwendet haben, ist nicht bekannt, aber es gibt mehrere Online-Dienste wie zum Beispiel ElevenLabs und Respeecher, die das Klonen von Stimmen per KI anbieten - mal mit mehr, mal mit weniger Schutzvorrichtungen um Missbrauch zu verhindern. Diese können für einen solchen Betrug genutzt werden, und die Verantwortlichen eines solchen Betrugs zu belangen, ist schwer - sie sitzen meist in anderen Ländern und könnten nur mit Mithilfe der örtlichen Behörden (wenn überhaupt) ermittelt werden.

Telefonbanking adé?

Beunruhigend ist auch der Versuch eines Reporters, der sich erfolgreich mit seiner per KI synthetisierten Stimme über Telefonbanking in sein Konto einloggte. Das bedeutet, dass ein Authentifizierungssystem, welches nur mittels des Geburtsdatums und der Authentifizierung mittels Stimme - "Bitte sagen Sie: Meine Stimme ist mein Passwort" - jetzt nicht mehr ausreicht. Die neuen KIs ahmen Stimmen gut genug nach, um die Stimmverifikationssysteme von Banken zu täuschen. Da von vielen Menschen sowohl Stimmaufzeichnungen als auch die Geburtsdaten online leicht aufzufinden sind, sind solche Sicherheitsvorkehrungen nun leicht zu umgehen.

Bisher galt ein Stimm-Sample als extrem sicheres Ausweisverfahren - Aussagen wie beispielseweise der Bank of Scotland (bei vielen anderen Banken finden sich ähnliche Statements) sind ab sofort überholt: "Ihre Stimme ist einzigartig. Um Voice ID zu verwenden, nehmen wir Ihre Stimme auf (per Telefon), wenn Sie einen bestimmten Satz sagen... Voice ID vergleicht mehr Merkmale in Ihrer Stimme, als das menschliche Ohr wahrnehmen kann. Wir können über 100 einzigartige Merkmale in Ihrer Stimme finden. Wenn Sie uns in Zukunft anrufen, werden wir den Stimmabdruck der Voice ID mit Ihrer Stimme vergleichen. Auf diese Weise wissen wir, dass wir mit Ihnen sprechen. Die Verwendung von Voice ID für Anrufe bei Telephone Banking ist schnell, einfach und sicher."

OpenAI VALL-E Voice AI. — OpenAI VALL-E Stimmen-KI

Ein solcher Voice ID Algorithmus, der eine Stimme analysiert und daraufhin verifizieren kann, wird nun überlistet durch eine Stimmen-KI, welche ebensogut Stimmen mitsamt allen ihren Merkmalen entschlüsseln kann, anhand dieser Daten die Stimme aber auch täuschend echt simulieren kann. Noch ist kein Fall bekannt, in welchem das Telefonbanking per Stimm-KI tatsächlich gehackt wurde, aber technologisch ist die Authentifizierung per Stimme (zumindest ohne zusätzliche starke Sicherheitsmaßnahmen) jetzt überholt.

// Top-News auf einen Blick:

In Zukunft

Anhand solcher simulierter Stimmen sind natürlich auch mit etwas mehr Aufwand noch viel gezieltere Scams möglich - so könnte etwa die Buchhaltung einer Firma durch den Anruf des Chef dazu gebracht werden, grössere Summen zu überweisen, oder ähnliches. Der Kreativität sind keine Grenzen gesetzt, was die Einsatzmöglichkeiten von Stimmfälschungen im großen und kleinen Rahmen angeht - gerade, wenn damit Geld verdient oder eine Person diskreditiert werden kann. Wir werden vermutlich noch viel "interessantes" in dieser Richtung sehen.

Eine erste Warnung waren die Geschehnisse vom Ende Januar 2023, als User der berüchtigten Internetplattform 4chan Elvenlabs Sprach-AI dazu nutzten, Audiofakes mit den Stimmen von bekannten Persönlichkeiten zu produzieren. So zirkulierten unter anderem Clips, in welchen die Schauspielerin Emma Watson einen Auszug aus Adolf Hitlers "Mein Kampf" liest und der amerikanische Präsident Joe Biden ankündigt, Truppen in die Ukraine zu schicken - zum Teil auch noch per DeepFake als Video einigermaßen realistisch animiert.

Gibt es Schutz vor Nachahmung der eigenen Stimme?

Für die sehr nahe Zukunft bedeutet diese Entwicklung, dass bloße Stimmen nicht mehr zur Identifizierung einer Person ausreichen. Um zu vermeiden, dass die eigene Stimme nachgeahmt wird, müsste man versuchen, keine eigenen Sprachaufnahmen, die für ein Stimmensampling genutzt werden können, öffentlich zu hinterlassen. Doch das würde bedeuten, überhaupt keine Videoclips, in denen gesprochen wird, im Netz zu posten oder solche Aufnahmen durch jemand anders zu verhindern - ein in vielen Fällen unmögliches Unterfangen. Von vielen Menschen sind ohnehin bereits (Video-) samt Sprachaufnahme im Netz zu finden und nicht mehr zu löschen - das Kind ist also schon in den Brunnen gefallen. Und da schon wenige Sekunden / wenige Worte Sprachaufnahmen ausreichen, könnte auch das nicht reichen - alleine schon durch ein Telefongespräch, in welchem man mit wenigen Sätzen dem Anrufer antwortet, könnte genügend Sprachmaterial zur Simulation anfallen.

Misstraue jeder Stimme?

Dies bedeutet, dass man ab sofort jeder Audioaufnahme einer Stimme - oder sogar einem Wortwechsel in Echtzeit - misstrauen sollte, wenn das Gesagte in irgendeiner Form einen Betrug vermuten läßt oder ungewöhnlich ist, es sei denn, der Anruf kommt tatsächlich von der zur Person passenden Telefonnummer oder kann anders authentifiziert werden. Paranoides Misstrauen als Grundeinstellung - eine unschöne Aussicht. Und im gesellschaftlichen Kontext gilt das natürlich auch: ab jetzt ist keiner reinen Audioaufnahme einer bekannten Persönlichkeit mehr zu trauen, wenn deren Authentizität nicht eindeutig verifizierbar ist. Ähnliches droht demnächst, wenn die Bildqualität gut genug ist, auch Videos.

mehr Infos bei
www.washingtonpost.com

Auf Socials teilen:

Leserkommentare // Neueste

Paralkar // 13:47 am 12.3.2023

Beeindruckend, Was ich mich bei so einer Möglichkeit frage, im Bezug auf die Medienwelt und auch Gesetze, inwieweit müssen wir definieren was Sprache rechtlich ist. Nehmen wir...weiterlesen

MK // 19:05 am 9.3.2023

Wahrscheinlich kam in den genannten Fällen sowieso keine KI zum Einsatz. Die Eltern wollten nicht zugeben die Stimme des Sohnes falsch erkannt zu haben, und die Bank schwafelt...weiterlesen

medienonkel // 17:54 am 9.3.2023

Gute Frage. Ist aber gut möglich, dass das in Echtzeit funktioniert. Ist ja nur text to speech. Denke ich mal. Und zusätzlich kommt noch dazu, dass da einerseits ein...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Synthetische KI-Stimmen machen professionellen Sprechern Konkurrenz

Generative KIs können mittlerweile Texte erstellen, die wie aus Menschenhand klingen, fotorealistische Bilder aus dem Nichts zaubern und nichtzuletzt - wie schon öfters an dieser ....

// 13:26 So, 21. Mai 2023von blip

News

OpenAI VALL-E: Neue KI macht jede Stimme nach - nur anhand von 3s Stimmsample

Es gibt ja schon seit längerem verschiedene DeepLearning Algorithmen, welche die unterschiedlichsten Stimmen täuschend echt nachahmen können - allerdings war bisher immer eine ...

// 16:42 Mo, 9. Jan 2023von Thomas Richter

News

Künstler vs KIs: Neues Tool macht Kunstwerke für KIs unverdaulich

Der Boom bildgenerierender KIs, die per Prompt beliebige Bilder erzeugen, hat bei Künstlern große Ängste ausgelöst, kann doch jeder Kunst- oder Künstlerstil - egal ob Malerei, ...

// 19:51 Mo, 20. Feb 2023von Thomas Richter

News

Kampf gegen KI-Fakes Neuer Algorithmus erkennt KI-Videos mit 98% Genauigkeit

Als die ersten Videos von OpenAIs Video-KI Sora erschienen, war klar, dass demnächst - früher als erwartet - massenhaft täuschend echt aussehende Filme von KIs generiert werden ...

// 14:14 Fr, 28. Jun 2024von Thomas Richter

News

Für Schutz der Demokratie Petition fordert Verbot von DeepFakes von echten Menschen

Angefangen hatten DeepFakes mit Pornovideos, in welche per Software die Gesichter von bekannten Schauspielerinnen montiert wurden - seit damals ist das Missbrauchspotential von ...

// 14:16 Fr, 21. Mär 2025von Thomas Richter

zur Newsübersicht >

Sony Cinema Line Neue Sony FX3 und FX30 Firmware bringt BIG6-Startbildschirm, RAW-Video per HDMI und ...

Sony hat für seine kompakten Cinema Line Vollformat- bzw. Super35-/APS-C-Kameras FX30, FX3 und FX3 neue Firmware-Versionen veröffentlicht, die eine Reihe interessanter Neuerungen ....

// 13:53 Di, 26. Aug 2025von Thomas Richter

News

Ab sofort vorbestellbar HoverAir Aqua - schwimmfähige Drohne für Wassersportaufnahmen

Die vor zwei Wochen vorgestellte Mini-Drohne HoverAir Aqua kann ab sofort per Crowdfunding vorbestellt werden - ausgeliefert wird sie allerdings erst im Dezember. Die zu 100% ...

// 10:17 So, 24. Aug 2025von Thomas Richter

Wissen

Pro und Contra Layer- vs. Node-basiertes Compositing - Welcher Workflow wann passt

Bei Compositing-Systemen gibt es grundsätzlich zwei unterschiedliche Workflow-Ansätze, den Node-basierten Ansatz sowie das Layer-basierte Arbeiten. Beide Ansätze haben dabei Vor- ...

// 11:32 Fr, 22. Aug 2025von Rudi Schmidts

Test

slashCam Bestenliste Die besten DSLMs für Video 2025: Blackmagic, Sony, Nikon, Canon, Panasonic ...

Mit der Sony FX2, der Canon EOS R5 Mark II sowie der Panasonic S1II, S1RII und GH7 haben wir zahlreiche neue Kameras getestet, die viel Bewegung in unser "Beste DSLM für Video" ...

// 12:34 Mo, 11. Aug 2025von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Stoppt Mickey Mouse die KI Kunst Revolution? Künstler protestieren gegen KI Konkurrenz

Die neuen bildgenerierenden KIs stellen eine Revolution dar: sie eröffnen erstmals die Möglichkeit, massenhaft hochqualitative Bilder nach Wunsch zu erzeugen - in beliebiger Menge,...

// 14:21 Di, 3. Jan 2023von Thomas Richter

Aktuelles

Text-zu-Sprache per KI: Ersetzen synthetische Stimmen bald professionelle Sprecher?

Nach Bild- und Text-generierenden KIs gibt es noch weiteres Feld, in welchem gerade per künstlicher Intelligenz enorme Fortschritte gemacht werden und zwar bei der Synthese von ...

// 19:47 Mo, 6. Feb 2023von Thomas Richter

zur Artikelübersicht >

Aktuelle News //

News

Kostenbloser Leitfaden zu neuen Funktionen in Blackmagic Resolve 20.1 und neue Version

Bugfixes und mehr Kostenbloser Leitfaden zu neuen Funktionen in Blackmagic Resolve 20.1 und neue ...

Blackmagic hat nach dem ersten großen Update der im Mai erschienenen Version 20 von Blackmagic DaVinci Resolve (Studio) jetzt ein weiteres Update für sein kostenloses Grading-, ...

// 13:13 So, 31. Aug 2025von Thomas Richter

News

Lumix App Update Panasonic Lumix Lab App 1.6 bringt LUT-Pakete, EXIF-Anzeige & mehr

Panasonic hat die neue Version 1.6 der kostenlosen Lumix Lab App (iOS und Android) für seine spiegellosen Systemkameras veröffentlicht. Die App, mit deren Hilfe Fotos und Videos .....

// 12:16 So, 31. Aug 2025von Thomas Richter

zur Newsübersicht >