[11:03 Sa,11.März 2023 [e] von Rudi Schmidts] |
Heise hatte bereits am Donnerstag als erster darüber berichtet, dass bei der Microsoft-Veranstaltung "KI im Fokus – Digitaler Kickoff" fast beiläufig erwähnt wurde, dass
Noch konkreter wurde Andreas Braun, CTO Microsoft Germany und Lead Data & AI STU, so wörtlich: "Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos". Im Gegensatz zu "großen Sprachmodellen" (Large Language Modells, LLMs) sind multimodale Modelle nicht auf Sprache zur Eingabe und Ausgabe limitiert. Man kann, aber muss keinen Text als Input nutzen, sondern kann neben Text auch ein Bild, einen Ton oder -nach Microsofts Andeutung- sogar ein Video "eingeben". Erst vor ein paar Tagen hatte Microsoft sein eigenes erstes, großes Multimodales Modell ![]() ![]() Kosmos-1 Kosmos-1 ist nun NICHT GPT-4 und hat damit auch nur gemein, dass GPT-4 ebenfalls multimodal arbeiten kann. ![]() Kosmos-1 Ähnliches könnte also auch bei der Eingabe von Videos bald möglich sein. Es ist zudem zu erwarten, dass in Zukunft auch multimodaler Output nutzbar sein wird. Ob es bei GPT-4 schon soweit ist, wird sich nächste Woche klären. Auf jeden Fall dürften wir in Kürze das Zusammenwachsen von GPT- und Diffusion-Modellen erleben. Die Geschäftsführerin von Microsoft Germany, Marianne Janik, betonte auf der gleichen Veranstaltung übrigens, dass es bei KI nicht darum gehe, Jobs zu ersetzen, sondern repetitive Aufgaben auf andere Weise als bisher zu erledigen. Man werde auch weiterhin viele Menschen als Experten benötigen, um die Nutzung von KI wertschöpfend zu machen. Also lieber schon mal das Prompten üben, liebe Leute... ![]() |
![]() |