Heise hatte bereits am Donnerstag als erster darüber berichtet, dass bei der Microsoft-Veranstaltung "KI im Fokus – Digitaler Kickoff" fast beiläufig erwähnt wurde, dass GPT-4 bereits nächste Woche erscheinen soll.
Dessen noch aktueller Vorläufer GPT3(.5) befeuert unter anderem das gerade omnipräsente ChatGPT von OpenAI. An OpenAI hält Microsoft mittlerweile signifikante Geschäftsanteile und dürfte deswegen in die internen Abläufe entsprechend eingeweiht sein.
Noch konkreter wurde Andreas Braun, CTO Microsoft Germany und Lead Data & AI STU, so wörtlich: "Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos".
Im Gegensatz zu "großen Sprachmodellen" (Large Language Modells, LLMs) sind multimodale Modelle nicht auf Sprache zur Eingabe und Ausgabe limitiert. Man kann, aber muss keinen Text als Input nutzen, sondern kann neben Text auch ein Bild, einen Ton oder -nach Microsofts Andeutung- sogar ein Video "eingeben".
Erst vor ein paar Tagen hatte Microsoft sein eigenes erstes, großes Multimodales Modell Kosmos-1 vorgestellt. Dieses MLLM (Multimodal Large Language Model) kann nach der Betrachtung von Bildern konkrete Aussagen zum Bildinhalt beantworten oder auch Bilderrätsel lösen.

// Top-News auf einen Blick:
- DJI Mavic 4 Pro - 6K Video, 360° Gimbal, RC Pro 2 und bessere Hinderniserkennung
- Blackmagic DaVinci Resolve 20 Beta 3 ist da
- Wird Sony bald seine Sensor Sparte ausgliedern?
- Runway Gen-4-Referenzen – jetzt in allen Bezahl-Tarifen verfügbar
- Schauspieler als unfreiwillige Werbefiguren - Die dunkle Seite digitaler KI-Klone
- Das Berufsbild des KI-Prompt-Ingenieurs ist bereits wieder verschwunden
Kosmos-1 ist nun NICHT GPT-4 und hat damit auch nur gemein, dass GPT-4 ebenfalls multimodal arbeiten kann.

Ähnliches könnte also auch bei der Eingabe von Videos bald möglich sein. Es ist zudem zu erwarten, dass in Zukunft auch multimodaler Output nutzbar sein wird. Ob es bei GPT-4 schon soweit ist, wird sich nächste Woche klären. Auf jeden Fall dürften wir in Kürze das Zusammenwachsen von GPT- und Diffusion-Modellen erleben.
Die Geschäftsführerin von Microsoft Germany, Marianne Janik, betonte auf der gleichen Veranstaltung übrigens, dass es bei KI nicht darum gehe, Jobs zu ersetzen, sondern repetitive Aufgaben auf andere Weise als bisher zu erledigen. Man werde auch weiterhin viele Menschen als Experten benötigen, um die Nutzung von KI wertschöpfend zu machen.
Also lieber schon mal das Prompten üben, liebe Leute...