Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum News-Kommentare-Forum

Infoseite // Neue Methode zur Videostabilisierung per KI: Besser als alle bisherigen?



Newsmeldung von slashCAM:



Die nachträgliche Stabilisierung verwackelter Videoaufnahmen gerade von Aufnahmen mit dem Smartphone ist für viele User eine wichtige Aufgabe, deren Gelingen sehr von der...



Hier geht es zur Newsmeldung auf den slashCAM Magazin-Seiten:
Neue Methode zur Videostabilisierung per KI: Besser als alle bisherigen?


Space


Antwort von Frank Glencairn:

Leider immer noch völlig unbrauchbar.
Auf der anderen Seite: Wer sich einbildet er müsse mit der Kamera in der Hand rum eiern, und glaubt er könnte das danach - irgendwie magisch - zu einer Dolly Fahrt machen, verdient es nicht besser.

Space


Antwort von mash_gh4:

ziemlich interessant in dem zusammenhang finde ich auch die ML-featurs die version 13 im nuke dazugekommen sind.

das betrifft einerseits das "Deblur"-filter, mit dem man vor allen dingen motion blur, wie es sich beim stabilisieren von footage immer wieder störend zeigt, recht sauber rausrechnen kann, aber auch die "CopyCat"-funktion, mit der das programm komplizierte compositing-eingriffe an hand von bildbeispielen lernen kann, um die effekte dann auf anderes bildquellen anzuwenden. letzteres scheint mir tatsächlich die erste brauchbare lösung, normalen benutzern in einem fertigen programm derartige ML-werzeuge in nicht unnötig domestizierter form an die hand zu geben.



und überhaupt ist nuke in der frei zugänglichen non-commercial ausgabe ein ganz unglaublich mächtiges werkzeug, das man einfach kennen und lieben lernen sollte! :)

Space


Antwort von Axel:

Grässliches Demovideo. Erstaunliche Resultate? Alles wabbelt und wobbelt.

Die Zukunft ist wahrscheinlich Gyro. Genügend größere Auflösung, und nichts wird interpoliert.

Space


Antwort von Frank Glencairn:

Gyro gibt's doch seit Jahren, is aber bei der Zielgruppe irgendwie nicht so richtig gut angekommen.

Space


Antwort von cantsin:

"Frank Glencairn" hat geschrieben:
Gyro gibt's doch seit Jahren, is aber bei der Zielgruppe irgendwie nicht so richtig gut angekommen.
Scheint sich jetzt aber durch die Hintertür mit neueren Sony-Kameras (wie der A7s III) und Catalyst Browse doch durchzusetzen...

Auf YouTube gibt's bereits unzählige Videos dazu: https://www.youtube.com/results?search_ ... stabilizer , Google Video Search spuckt mir sogar knapp 2000 Videos zu dem Thema aus.

Die Frage ist nur noch, wann diese Funktion (bzw. Auslesung von Gyro-Metadaten zur Bildstabilisierung) in Mainstream-NLEs wie Premiere, FCP und Resolve einzieht, so dass der Roundtrip überflüssig wird.

Space


Antwort von mash_gh4:

cantsin hat geschrieben:
"Frank Glencairn" hat geschrieben:
Gyro gibt's doch seit Jahren, is aber bei der Zielgruppe irgendwie nicht so richtig gut angekommen.
Scheint sich jetzt aber durch die Hintertür mit neueren Sony-Kameras (wie der A7s III) und Catalyst Browse doch durchzusetzen
naja -- derartige zusatzinformation in den metadaten, die tatsächlich die bewegungen der kamera in sehr hoher abtastfrequenz aufzeichnen, können natürlich tatsächlich ausgesprochen hilfreich sein, um deconvolution-kernels zu errechnen, mit denen man die bewegungsunschärfe wieder tlw. rückgängig machen kann. damit das sauber funktioniert, braucht man aber doch auch noch sehr viel zusätzliche informationen über das exakte ausleseverhalten des betreffenden sensors bzw. dessen aktueller konfiguration. ich kann mir also nur schwer vorstellen, dass man das in in absehbarer zeit auch in herstellerunabhängiger weise nutzen können wird.

das ganze an hand der optischen charakteristiken zu ermitteln -- also: blind deconvolution --, so wie es dieses nuke-plugin nun macht, war bisher eher nur im akademischen umfeld eine bekannte herausforderung, um seine rechenkünste zu demonstrieren. in of-the-shelf software ist mir derartiges bisher noch kaum untergekommen.

Space


Antwort von cantsin:

mash_gh4 hat geschrieben:
ich kann mir also nur schwer vorstellen, dass man das in in absehbarer zeit auch in herstellerunabhängiger weise nutzen können wird.
Ich meinte auch eher, dass die NLE-Hersteller die in Catalyst Browse eingebauten Algorithmen von Sony lizenzieren, woran ja auch Sony ein geschäftliches Interesse haben dürfte (=mehr Kaufargumente für ihre Kameras, zumal Sony sowieso kein Softwarehersteller ist und mit Catalyst Browse auch nichts verdient).

Dass es da standardisierte Verfahren oder APIs geben wird, die herstellerübergreifend bzw. -unabhängig funktionieren, erwarte ich (leider) nicht. Sicher ist das eine hochgradig proprietäre und wahrscheinlich auch Patent-verminte Angelegenheit, genau wie die hier anderorts diskutierten Autofokus-Verfahren.

Space


Antwort von mash_gh4:

cantsin hat geschrieben:
mash_gh4 hat geschrieben:
ich kann mir also nur schwer vorstellen, dass man das in in absehbarer zeit auch in herstellerunabhängiger weise nutzen können wird.
Ich meinte auch eher, dass die NLE-Hersteller die in Catalyst Browse eingebauten Algorithmen von Sony lizenzieren,...
das halte ich persönlich für eher unwahrscheinlich.

gut -- einzelne softwareanbieter, die sich immer gerne damit schmücken, irgendwelche langen listen mit zugekauften schnickschnak zu präsentieren, könnten dafür schon empfänglich sein, aber die seriöseren softwarehäuser versuchen im allgemeinen schon ein bisserl mehr kontrolle über die dinge zu bewahren bzw. wenigstens nur das wirklich gut zu machen, was sie selbst sauber umzusetzten verstehen.

ich kann mir aber gut vorstellen, dass derartiges im internen processing der kameras zusehends an bedeutung gewinnt -- wenn es nicht ohnehin schon längst in irgendwelchen handys genutzt wird, ohne dass uns das bewusst wäre. ;)

Space



Space


Antwort von pillepalle:

Die Nachteile KI gestützter Software kann man bei den cloudbasierten Adobe Apps ganz gut sehen, bei denen 'Details' dazu erfunden werden, die es gar nicht gab. Auch wenn es in dem konkreten Beispiel um das Nachschärfen eines Fotos ging, gibt es die gleichen Funktionen, z.B. in After Effects, um Motionblur zu reduzieren. Das sieht zwar gut aus, hat aber nichts mehr mit der Wirklichkeit zu tun. Da bekommt 'Muttern' einfach irgendwelche Zähne und Ohringe aus anderen Fotos verpasst. Für Amateure mag das ja hilfreich sein, vermurkste Aufnahmen zu retten, aber ich hoffe nicht das dies die Zukunft der Fotografie/Videografie sein wird :)

https://youtu.be/Q8HFN4y1WVw&t=3m0s

VG

Space


Antwort von Bluboy:

Ki :-)

Bei Slashcon gibts einen thead (suFu Deep Fake)

https://mixed.de/the-irishman-verjuengu ... -original/

Space


Antwort von mash_gh4:

pillepalle hat geschrieben:
Auch wenn es in dem konkreten Beispiel um das Nachschärfen eines Fotos ging, gibt es die gleichen Funktionen, z.B. in After Effects, um Motionblur zu reduzieren. Das sieht zwar gut aus, hat aber nichts mehr mit der Wirklichkeit zu tun. Da bekommt 'Muttern' einfach irgendwelche Zähne und Ohringe aus anderen Fotos verpasst.
man darf in dem zusammenhang nicht alles in einen topf werfen!

natürlich gibt es auch ML-anwendungen, wo tatsächlich sehr viel synthetisiert wird. od. zumindest an hand von realen bildern wahrscheinlichkein bzgl. realistischer bildcharakteristiken trainiert werden, aber im falle der motion blur reduktion und der korrektur von fokusunschärfen trifft das in der regel nicht zu. hier geht's vielmehr nur darum, jene parameter herauszufinden, mit denen das bild bei der abbildung verzerrt wurde bzw. mit wissen darum nachträglich wieder weitestmöglich restauriert werden kann. das ist also mehr ein ganz klassisches optimierungsproblem, wo nicht viel hineingedichtet wird. an letzterem sollte man sich vermutlich auch orientieren, bevor man gar zu leichtfertig darüber urteilt od. unzutreffendes in diese techniken hineinphantasiert.

ich hab ohnehin bereits weiter oben links zu weiterführenden informationen bzgl. derartiger deconvolution techniken eingeflochten, die das entsprechende prozedere ganz plausibel und verständlich beschreiben sollten.


zum Bild


Space


Antwort von pillepalle:

@ mash_gh4

Was wird denn da weniger hinein gedichtet? Die Restaurierung orientiert sich an umliegenden Strukturen, oder an einer Bibliothek, aber z.B. die Zweige eines in der Bewegungsunschärfe verschwischten Baumes können auch nur neu 'dazu erfunden' werden. Es gibt ja auch für Stills eine Motion-Blur Reduktion. Eine KI kann die Wirklichkeit immer nur nachbilden, aber sie entspricht eben nicht mehr der Wirklichkeit. Und die Dekonvolution, die Du als Beispiel anführst, hat ja nichts mit KI zu tun. Das ist eine rein mathematische Aufgabe.

VG

Space


Antwort von Jott:

Willst du nicht auch noch die Satzzeichen weglassen, mash? Es ist noch zu leicht, sich durch deine Texte durch zu kämpfen.

Space


Antwort von mash_gh4:

pillepalle hat geschrieben:
Was wird denn da weniger hinein gedichtet? Die Restaurierung orientiert sich an umliegenden Strukturen, oder an einer Bibliothek, aber z.B. die Zweige eines in der Bewegungsunschärfe verschwischten Baumes können auch nur neu 'dazu erfunden' werden.
woran sich derartige CNNs tatsächlich orientieren, ist eine verdammt komplizierte frage. es ist jedenfalls keine bloße sammlung von beispielbildern bzw. schnippseln mit bildausschnitten, sondern vielmehr von wahrscheinlichkeiten bzw. zusammenhängen, wie man sie in realen bildern gewöhnlich antrifft.

recht eindrucksvoll bekommt man das vor augen geführt, wenn man das erste mal mit sgn. "transfer learning" in berührung kommt. dort vewendet man CNNs, die an hand von riesigen bildermengen trainiert wurden, dann aber auf der untersten ebene beschnitten wurden, so dass ihre urspüngliche zuordnungsfunktion verloren geht, an ihrer stelle platziert man dann einen neuen ungfräulich leeren layer und trainiert das netzwerk erneut mit einer völlig anderen aufgabenstellung. erstaunlicherweise geht das nun um ein vielfaches schneller, weil sich das netzwerk weiterhin auf eine abstraktes wissen stützen kann, dass es aus diesem ersten lernprozess behalten hat. trotzdem kann man diese verbliebenen inhalte in keiner weise fassen, weil sie in einer völlig abstrakten weise eingebettet sind und sich gewissermassen holistisch über das ganze netzwerk erstrecken. das ganze weist also tatsächlich sehr große ähnlichkeit zur menschlichen wahrnehmung auf, die ja auch ein wenig komplizierter organisiert zu sein scheint als nur irgendwelchen manifesten entscheidungsregeln, isolierten sinnesdaten od. beispielsammlungen im gedächtnis zu folgen.

es geht dabei also eher um vorgänge, wie sie vor langer zeit einmal ein gewisser chr. ehrenfels in seinem ausgesprochen bedeutsamen aufsatz "Über 'Gestaltqualitäten'" hier in graz an der uni am bsp. der visuellen gestaltwahrnehmung und dem erfassen von musikalischen motiven bereits vor 130 jahren ganz wunderbar beschrieben hat.
pillepalle hat geschrieben:
Eine KI kann die Wirklichkeit immer nur nachbilden, aber sie entspricht eben nicht mehr der Wirklichkeit.
wozu man sie hier nutzt, hat wenig mit einem "nachbilden" zu tun, sondern vielmehr mit einem automatisierten beantworten der frage: "schaute dieses bild realistisch bzw. scharf und unverwischt aus?" bzw. "ist es jetzt besser/schlechter als vorher?", etwas also, dass du sicher auch einigermaßen treffsicher beantworten könntest, wenn man dir entsprechende korrekturversuche vorlegen würde. und es würde dir seltsamerweise auch gelingen, obwohl du das abgebildete noch nie vorher gesehen hast.
pillepalle hat geschrieben:
Und die Dekonvolution, die Du als Beispiel anführst, hat ja nichts mit KI zu tun. Das ist eine rein mathematische Aufgabe.
im falle von blind deconvolution ist die sog. point spread function (PSF) unbekannt. man muss sie also durch ausprobieren bzw. trickreiche annäherung erst herausfinden. das macht die sache um einiges komplizierter, wenn das auch mit beliebigen vorher unbekannten bildinhalten und störungen, die man nur ganz grob eingrenzen kann -- bspw. eben auf bewegungsbedingte unschärfen -- , funktionieren soll...

Space


Antwort von pillepalle:

@ mash_gh4

Wenn man nur ein wenig Blur reduziert, wird auch auch nur wenig neu berechnet bzw dazu erfunden. Mir geht's aber eher um das Prinzip die Bilder per KI zu verändern, nicht so sehr um mathematisch rekonstuierbare Bildfehler, zu denen z.B. ja auch die ganzen Objektivkorrekturen zählen.

Da wo eine KI eingreift wird etwas nicht existierendes dazu erfunden. Wie z.B. bei den ganzen Neural Filtern in Photoshop (Automatic Sky Replacement, Smart Portrait usw.). Das hat alles nichts mehr mit dem Original zu tun, außer in manchen Fällen einer gewissen äußerlichen Ähnlichkeit. Zur Zeit steckt das ja noch alles in den Kinderschuhen.

VG

Space


Antwort von teichomad:

our result: warp soweit das Auge blicken kann. wow

Space


Antwort von mash_gh4:

pillepalle hat geschrieben:
Da wo eine KI eingreift wird etwas nicht existierendes dazu erfunden.
ich seh das ein bisserl anders.

wir haben ja hier vor einiger zeit ein ganzes jahr lang den arbeitsschwerpunkt "machine learning und kunst" in einer größeren gruppe bearbeitet, so dass mir diese dinge mittlerweile ein klein wenig vertrauter sind.

ich persönlich versuche den begriff "künstliche intelligenz" eher zu vermeiden und spreche lieber von von "machine learning", weil erstere wortwahl ständig dazu verführt, irgendwelche ganz mächtige dinge damit zu assozieren, während zweiteres doch eher als etwas einigermaßen irdisches und begrenztes verstanden wird.

ich würde ML auch gar nicht so sehr mit dem hervor- od. einbringen irgendwelcher artifiziellen schöpfungen in verbindung bingen, sondern es vielmehr als eine methode charakterisieren, prozessse an hand von konkreten beispielen zu konfigurieren, statt sie, wie man dasbisher im computerumfeld gemacht hat, mit handlungs- bzw. ablaufanweisungen zu programmieren.

die möglichkeiten, die sich mit diesem paradigmenwechsel in den letzten jahren eröffnet haben, sind gegenwärtig tatsächlich noch kaum absehbar. das es darunter aber auch genug anwendungen gibt, die ich für ausgesprochen problematisch bzw. gesellschaftspolitisch inakzeptabel erachte, steht völlig außer frage. vor allem bedrückt es mich aber, wie wenig wissen und fundiertes urteilsvermögen dazu unter alle jenen vorhanden ist, die längst schon im alltag mit den auswirkungen entsprechender automatisierter entscheidungsmechanismen konfrontiert sind.

ob nun bilder auch mit derartigen mitteln ein wenig verfälscht werden, halte ich also beinahe für ein luxusproblem, dem ich kein übermäßig großes gewicht beimessen würde. im übrigen hat man das lügen mit hilfe der kamera mittlerweile so sehr perfektioniert, dass ich kaum mehr ernsthaft irgendwelche authentitätsansprüche damit verbinde. da glaube ich fast eher irgendwelchen kollegen mit pisel od. bleistift in der hand, die wenigstens auch zwingend immer ein klein wenig ihre ganz persönlichen sprache oder visuelle wahrnehmung in das geschaffene einschreiben müssen.

genau diese verbliebenen reste menschlicher reflexion, jenseits der vorgegebenen regeln, macht für mich das künsterische schaffen weiterhin relevant. und weil mich in diesem zusammenhang vor allem die undefinierten freiräume bzw. dasjenige interessiert, was die einzelnen akteure tatsächlich als antwort und echo auf die sie umgebende welt einflißen lassen, hab ich ehrlich gestanden weit mehr probleme mit vielen anderen verbreiteten modeerscheinungen und oberflächlichen effekten der bildgestaltung (FF tiefenschärfeorgien oder colorgrading, das schlimmer als in zeiten der handkolorierung vor erfindung des farbfilms wirkt -- all diese dinge halt, die heutiges schaffen bald schon wieder "sehr alt" aussehen lassen wird), die den wachen blick mindestens genauso sehr verstellen, wie diese technischen hilfsmittel, die uns alle ständig überfordern und dem tatsächlichen kreativen eingriff bzw. jeder bewussten veränderung weitestgehend entzogen sind.

ich denk da immer wieder an den villem flusser, der den photographen angesichts dessen ohnmacht gegenüber der verwendeten technik sinngemäß nur mehr als "verlängerten selbstauslöser des apparats" beschrieben hat.

es mag zwar sein, dass mich viele hier quasi ausschließlich als techik-verliebten nerd wahrnehmen, aber in wahrheit geht es mir dabei mehr um die anneigung der nötigen voraussetzungen für eine kritische auseinandersetzung mit jenen werkzeugen und technischen rahmenbedingungen, die unser mediales schaffen ständig ganz massiv determinieren. letztlich ist das zwar auch nur ein aussichtsloses nachhecheln, mit dem man in wahrheit nur sehr wenig zu fassen bekommt und die große maschinerie ganz bestimmt nicht zu dekonstruieren vermag, aber zumindest ist mir persönlich diese richtung der auseinandersetzung und des hinterfragens sympathischer als einfach nur ohnmächtig im strom mitzuschwimmen.

ich glaub also weder daran, dass ich bilder machen könnte, die irgendwas wahres unverfälscht wiedergeben können, noch gebe ich mich großen illusionen hin, der prägenden vermittlung von illussionen aus holywood od. auch nur dem abendlichen fernsehprogramme irgend etwas kreatives entgegen setzten zu können. so bleib ich lieber bei diesem verrückten spiel an den rändern, das vielleicht noch am ehesten bezüge zur tradition und bemühungen mancher experimentalfilmer und ihrer auseinandersetzung mit den vorgaben des benutzen mediums besitzen dürfte. nur dass sich halt die rahmenbedingungen dauernd ändern und derartige arbeit heute oft mehr mit computern als mit kameras zu tun hat.

Space



Space


Antwort von Frank Glencairn:

pillepalle hat geschrieben:

Zur Zeit steckt das ja noch alles in den Kinderschuhen.
Da tut sich aber momentan auch ne Menge - gib der Sache nochmal 2 Jahre....

Währenddessen bastelt Nvidia schon mal an der entsprechenden Hardware - seit neuestem sogar CPUs.



Space


Antwort von Jörg:

Währenddessen bastelt Nvidia schon mal an der entsprechenden Hardware -
gib der Sache nochmal 2 Jahre....
in zwei Jahren bekommen wir dann vielleicht die vor fast einem Jahr angekündigte 3XXX Serie zum normalen Preis ?

Space


Noch was unklar? Dann in unserem Forum nachfragen
Zum Original-Thread / Zum News-Kommentare-Forum

Antworten zu ähnlichen Fragen //


Einfache Methode um Kennzeichen zu verpixeln
Vivo X50 Pro Smartphone: neue "Gimbal"-Bildstabilisierung soll besser sein als OIS
Neue Bild-KI FLUX.1 "made in Germany" - besser als DALL-E 3 und Midjourney?
Mercalli Standalone Mac: Videostabilisierung in der Postproduktion für Macs
Fujifilm X-T4 in der Praxis: Videostabilisierung, Autofokus, Ergonomie und Fazit ? Teil 2
Vergleich Videostabilisierung: Fujifilm X-T4, Panasonic S1H, Nikon Z6, Canon EOS-1D X Mark III vs GH5
Videostabilisierung mit Premiere oder After Effects?
Videostabilisierung: Mercalli V6 SAL erschienen mit KI-Unterstützung
Der Leitfaden zur Kaufberatung – für Neulinge (- und alle die es schon wieder vergessen haben)
Nikon Z6 RAW - Besser als ProRES?
Was David Fincher besser kann als Tarantino und Nolan
V12 BMW E31 850i besser als Tatort
Davinci Resolve besser als Magix Video Deluxe?
KI-Bilder mit Adobe Firefly - einfach, für jeden und besser als Midjourney oder Dall-E2?
Kann Chat GPT Bilder besser verlustfrei komprimieren als PNG?
Wiedergabe in der S5II und PC besser als in Resolve (60 & 30 FPS))
Künstliche Intelligenz – Besser als wir? | Weltspiegel Doku




slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash