[13:16 Do,9.März 2023 [e] von Thomas Richter] |
Befürchtet war es ja schon länger - jetzt ist es so weit: Die ersten Telefontrickbetrüger nutzen Stimmen-KIs, um alte Menschen durch einen vorgeblichen Notfall eines ihrer Kinder oder Enkel zu veranlassen, Geld an die Betrüger zu überweisen. Das funktioniert natürlich noch viel besser mit einer Stimme, die sich wirklich wie die des (Enkel-)Kindes anhört - und genau das ist mit modernen Stimmen-KIs, die jede Stimme täuschend echt nachahmen können, möglich.
![]() Die ![]() Welche KI die Betrüger verwendet haben, ist nicht bekannt, aber es gibt mehrere Online-Dienste wie zum Beispiel ![]() ![]() Telefonbanking adé?Beunruhigend ist auch ![]() Bisher galt ein Stimm-Sample als extrem sicheres Ausweisverfahren - Aussagen wie beispielseweise der ![]() ![]() OpenAI VALL-E Stimmen-KI Ein solcher Voice ID Algorithmus, der eine Stimme analysiert und daraufhin verifizieren kann, wird nun überlistet durch eine Stimmen-KI, welche ebensogut Stimmen mitsamt allen ihren Merkmalen entschlüsseln kann, anhand dieser Daten die Stimme aber auch täuschend echt simulieren kann. Noch ist kein Fall bekannt, in welchem das Telefonbanking per Stimm-KI tatsächlich gehackt wurde, aber technologisch ist die Authentifizierung per Stimme (zumindest ohne zusätzliche starke Sicherheitsmaßnahmen) jetzt überholt. In ZukunftAnhand solcher simulierter Stimmen sind natürlich auch mit etwas mehr Aufwand noch viel gezieltere Scams möglich - so könnte etwa die Buchhaltung einer Firma durch den Anruf des Chef dazu gebracht werden, grössere Summen zu überweisen, oder ähnliches. Der Kreativität sind keine Grenzen gesetzt, was die Einsatzmöglichkeiten von Stimmfälschungen im großen und kleinen Rahmen angeht - gerade, wenn damit Geld verdient oder eine Person diskreditiert werden kann. Wir werden vermutlich noch viel "interessantes" in dieser Richtung sehen. Eine erste Warnung waren die ![]() Gibt es Schutz vor Nachahmung der eigenen Stimme?Für die sehr nahe Zukunft bedeutet diese Entwicklung, dass bloße Stimmen nicht mehr zur Identifizierung einer Person ausreichen. Um zu vermeiden, dass die eigene Stimme nachgeahmt wird, müsste man versuchen, keine eigenen Sprachaufnahmen, die für ein Stimmensampling genutzt werden können, öffentlich zu hinterlassen. Doch das würde bedeuten, überhaupt keine Videoclips, in denen gesprochen wird, im Netz zu posten oder solche Aufnahmen durch jemand anders zu verhindern - ein in vielen Fällen unmögliches Unterfangen. Von vielen Menschen sind ohnehin bereits (Video-) samt Sprachaufnahme im Netz zu finden und nicht mehr zu löschen - das Kind ist also schon in den Brunnen gefallen. Und da schon wenige Sekunden / wenige Worte Sprachaufnahmen ausreichen, könnte auch das nicht reichen - alleine schon durch ein Telefongespräch, in welchem man mit wenigen Sätzen dem Anrufer antwortet, könnte genügend Sprachmaterial zur Simulation anfallen. ![]() Misstraue jeder Stimme?Dies bedeutet, dass man ab sofort jeder Audioaufnahme einer Stimme - oder sogar einem Wortwechsel in Echtzeit - misstrauen sollte, wenn das Gesagte in irgendeiner Form einen Betrug vermuten läßt oder ungewöhnlich ist, es sei denn, der Anruf kommt tatsächlich von der zur Person passenden Telefonnummer oder kann anders authentifiziert werden. Paranoides Misstrauen als Grundeinstellung - eine unschöne Aussicht. Und im gesellschaftlichen Kontext gilt das natürlich auch: ab jetzt ist keiner reinen Audioaufnahme einer bekannten Persönlichkeit mehr zu trauen, wenn deren Authentizität nicht eindeutig verifizierbar ist. Ähnliches droht demnächst, wenn die Bildqualität gut genug ist, auch Videos. ![]() |
![]() |