Schon vor anderthalb Jahren hatte OpenAI VALL-E veröffentlicht, ein System zur Sprachsynthese, welches anhand eines nur 3 Sekunden langen Samples einer Stimme in der Lag...

Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Microsoft VALL-E 2: KI ahmt jede Stimme perfekt nach - nur per 3s Stimmsample