Einen kleinen Ausblick auf den aktuellen Forschungsstand möchten wir mit dieser Vorstellung einiger Verfahren geben, die auf der diesjährigen Siggraph, der größten und bekanntesten Konferenz zum Thema Computergraphiken und Interaktivität, präsentiert wurden. Viele der Verfahrensweisen beziehen sich auf Photos, die meisten wären aber auch für die Arbeit mit bewegten Bildern denkbar und sinnvoll – die entsprechende Prozessorleistung vorausgesetzt.
Mit Verspätung werden einige der vorgestellten Algorithmen wohl auch in Consumer-Software in Form von neuen Features auftauchen. Um dem Fazit vorzugreifen: Komplexe Bildmanipulationen werden immer einfacher.
Die jeweils unter den Texten stehenden Videos zeigen das Verfahren anschaulich in Aktion. Wer sich für die Hintergründe interessiert, findet in den dazugehörigen, verlinkten Arbeiten mehr Informationen zu den jeweiligen Verfahren – auch was die Entwicklung und Verbesserungen der verschiedenen Algorithmen über die Zeit angeht.
Viel Spaß beim kleinen Ausblick in die Zukunft :-)
Scene Completion Using Millions of Photographs: Ergänzung von Szenen mittels Millionen von Photographien
Man hat ein Bild, in dem aus irgendeinem Grund - vielleicht ist gerade jemand vor die Kamera gelaufen oder ein Baukran verdeckt die schöne perspektivische Aussicht – ein Teil einer Szenerie fehlt. Mithilfe dieser Methode wird aus einer Vielzahl von verschiedenen Bildern und Ansichten der gleichen oder ähnlicher Szenerien der fehlende Bildausschnitt passend ergänzt. Der Algorithmus stellt auch verschiedene alternative Bildergänzungen zur Auswahl – es kann also wahlweise die orginale Ansicht wiederhergestellt werden oder eine fiktive andere konstruiert werden, und meist ist der Übergang von Ausgangsbild zum re-konstruierten Bildteil unmerklich.

Möglich wird das u.a. durch die phantastische Bilddatengrundlage, die durch das Netz zugänglich ist: auf Photoportalen mit Aber-Millionen von verschlagworteten Bildern finden sich zu vielen populären Motiven hunderte wenn nicht gar tausende ähnlicher und sich womöglich ergänzender Aufnahmen. Die Ressource der Milliarden privater digitaler Schnappschüsse wird durch das Internet zu einem großen Arbeitsarchiv.
Soft Scissors : Echtzeit Matte

Dieses Verfahren stellt in Echtzeit Vordergründe frei, die durch den User grob umrissen wurden – das Programm bestimmt dann intelligent selbst die genauen Grenzen des ausgewählten Objekts (auch von schwierigen weil z.B.. behaarten Objekten die vor komplexen Hintergründen zu sehen sind) und stellt es in Echtzeit vor einem anderen gewählten Hintergrund dar. Die Größe des Auswahl Pinsels richtet sich dabei automatisch durch einen vorausschauenden Algorithmus nach der geschätzten Fuzziness der noch zu markierenden Grenzen. Eventuelle Fehler des Tools sind, da die Auswahl in Echtzeit erfolgt, sofort korrigiert. Mit der Hilfe dieses Tools sind sehr schnell, sehr gute Masken von komplizierten Objekten erstellt.

Content-Aware Image Sizing: Kontext-sensitive Größenveränderung von Bildern
Anders als einfache Verfahren zum unsymmetrischen Skalieren von Bildern, die einfach jede x-te Reihe/Spalte weglassen oder die Durchschnittsfarbwerte für aneinander angrenzende Pixeln errechnen, geht dieses Verfahren vor. Es unterscheidet verschiedene Bildbereiche und versucht mathematisch deren „Wichtigkeit“ einzuschätzen – beispielsweise werden beim horizontalen Stauchen eines Bildes unregelmäßige vertikale „Nähte“ / Segmente aus dem Bild weggelassen – wie man bei den Demobildern sehen kann, sind die resultierenden Veränderungen kaum erkennbar.

Durch ein interaktives Interface kann der User bestimmte Bereiche markieren, um sie zu schützen. Sie werden dann besonders behandelt, um nicht verzerrt zu werden, falls der Algorithmus sie nicht richtig einschätzt. Eine andere Anwendung des Programms ist das unmerkliche Entfernen von Objekten aus Szenen – mit einigen einfachen Pinselstrichen wird ein Objekt markiert, welches die Software dann bevorzugt aus dem Bild entfernt, wenn es verkleinert wird.

Es kann auch nahezu ohne zu verzerren das Seitenverhältnis von Objekten geändert werden.

Photo Clip Art: Objekte realistisch in Photos einsetzen
Hierbei handelt es sich um ein einfaches Interface, um aus einer Datenbank Objekte perspektivisch und richtig beleuchtet realistisch in Photos einzufügen. Eine ganze Reihe von speziellen Algorithmen wurde eingesetzt, um dies zu ermöglichen. Der User wählt nur das gewünschte Objekt und die Stelle, an der es eingefügt werden soll, und die Software erledigt alle weiteren, notwendigen Operationen zur Anpassung ans Bild automatisch. Je nach Szene werden Clip Art Objekte der usergenerierten Datenbank Label Me (http://labelme.csail.mit.edu) ausgesucht, die in die Szene passen und dem User zur Auswahl gestellt.
Soll eines der Objekte eingefügt werden, wird versucht, aus den relativen Größen der Objekte der Ausgangsszene Daten über die Perspektive zu ermitteln, um das Objekt richtig skaliert einzufügen. Eine weitere Schwierigkeit ist der im Objektbild enthalte Schatten, der erst erkannt und dann dem neuen Szenario angepasst werden muss. Um aus dem Bild ein vages 3-D Modell zu erstellen (das notwendig ist, um perspektivisch richtig einzufügen) , wird ein Verfahren genutzt, das auf der Siggraph 2005 vorgestellt wurde, „Automatic Photo Pop Up“ genannt.
Automatic Photo Pop Up: Rohe 3-D Ansicht aus Photos

Dieses Tool wurde zwar schon auf der Siggraph 2005 vorgestellt – ist jedoch als Vorgänger des obigen Programms ganz interessant. Es versucht, aus einem einzigen Bild eine rohe 3-D Ansicht der abgebildeten Objekte im Raum zu rekonstruieren, indem geschätzt wird, wo in einem Bild vertikale Objekte sind und welche Bildteile zur Bodenfläche gehören.
VideoTrace: Interaktiv 3-D Modelle aus Objekten in Videos erstellen
Auch dieses Verfahren hat zum Ziel, 3-D Modelle aus Objekten in einem Video zu konstruieren. VideoTrace funktioniert über ein interaktives Verfahren, indem der User das gewünschte Objekt in verschiedenen Videoszenen, in denen das Objekt aus unterschiedlichen Perspektiven gezeigt wird, grob die Struktur des Objekts nachzeichnet. Das ist zwar arbeitsaufwendiger als automatische Verfahren, aber auch genauer.

Das Programm errechnet aus den Daten der verschiedenen Ansichten ein ziemlich realistisches 3-D Modell des Objekts, das dann beliebig manipulierbar ist. Dieses 3-D Modell, das aus 2-D Ansichten rekonstruiert wird, ist wichtig für eine realistische Bildmanipulation, für die das Objekt perspektivisch richtig in ein Bild eingepasst werden muss. Die Oberflächen bestehen aus dem aufs 3-D Modell gemappten Bildmaterial. Das Objekt kann dann z.B. ausgeschnitten und in Perspektive und Größe angepasst in andere Videos eingefügt werden. Voraussetzung für das ganze Verfahren ist, das genügend Bilder aus verschiedenen Ansichten vom gewünschten Objekt vorliegen.

Objekte aus Videos ausschneiden ud einfügen
Ldr2Hdr: On-the-fly Reverse Tone Mapping of Legacy Video and Photographs
Es gibt immer mehr HDR-Displays, aber noch lange wird die Mehrheit der produzierten Bilder LDR („low dynamic range“), also normal aufgenommen sein. Dieses Verfahren verspricht, in Echtzeit normale Low Dynamic Range Videos in HDR-Videos umwandeln, d.h. den Dynamic Range zu erweitern.
Rendering for an Interactive 360º Light Field Display: Rundum 3-D Display
Ein interaktives 360° Display, das aus einem Hochgeschwindigkeitsvideoprojektor besteht, einem sich drehenden Spiegel und Schaltkreisen um speziell gerenderte DVI-Signale zu dekodieren. Mithilfe einer Standard Grafikkarte werden 5000 Bilder pro Sekunde eines interaktiven 3-D Bildes in 360° projiziert, sodass aus jedem Blickwinkel ein dreidimensionales Bild gesehen wird. Es ist möglich das Bild in Echtzeit zu verändern.
Photosynth: 3-D Rekonstruktion von Räumen anhand von perspektivisch unterschiedlichen Photos
Dieses Projekt von Microsoft ist zwar schon älter, aber es zeigt ganz gut die „Bild- Intelligenz“ aktueller Algorithmen – die in der Lage sind, Objekte auf Photos aus verschiedenen Perspektiven zu erkenn und zu einem ganzen zusammenzufügen – und in diesem Fall sogar deren dreidimensionale Gestalt zu rekonstruieren.
Die Datengrundlage sind auch hier die im Netz zugänglichen Photos – und im Verbund mit Photosynth ermöglichen Millionen digitaler Erinnerungen so das virtuelle Wiederauferstehen oder Rekonstruieren von (historischen) Szenen. Mit der Hilfe von Tausenden älteren (eingescannten) Aufnahmen wären so z.B. 3-D Stadtrundgänge durch das London der 60er oder das Berlin der 20er Jahre möglich.
Wie Manipulationen in Videos und Bildern erkennbar werden
Hoffnung für die Wahrheit des Bildes kommt in Gestalt dieses letzten Tools: zwar nicht auf der Siggraph präsentiert, aber ganz passend ist dieses Verfahren, das in der Lage ist, manche Bildmanipulationen anhand der verschiedenen Fehlerlevel in JPGs aufzuspüren, und nachträgliche Veränderungen am Bild sichtbar identifizieren.
Fazit
Viele der vorgestellten Tools ermöglichen eine immer einfachere Manipulation von Bildern. Möglich wird das unter anderem durch ein immer intelligenteres Erkennen von Bildinhalten. Einstmals nur verschlagwortete Bilder werden mittels Bilderkennungs- und -vergleichsalgorithmen mit einem Netz von Bedeutungen verkettet: wenn der Inhalt der Bilder analysiert wird und die einzelnen abgebildeten Objekte erkannt werden, sind ganz neue Zugänge zur Bilderflut möglich: welche Bilder haben ähnliche Motive? Auf welchen Photos kommt ein bestimmtes Objekt vor?
Ein zweiter Schritt ermöglicht dann das Extrahieren von bestimmten Objekten aus Bildern und die freie Manipulation: Objekte aus einem Bild können in andere Bilder eingesetzt und kombiniert oder spurlos entfernt werden.
Außerdem sind solche Verfahren nützlich, wenn die Nachfrage nach 3-D Bildern für immer bessere 3-D Sichtgeräte steigt – die neue Welle von 3-D Filmen im Kino ist vielleicht erst der Anfang einer neuen Technologierevolution (und wenn diese 3-D Revolution nach so vielen angekündigten wirklich kommt, werden die dafür notwendigen Geräte vermutlich gerade erst dann erschwinglich sein, wenn jeder Haushalt endlich seinen hochauflösenden Camcorder, Videorecorder und Fernseher hat) – 3-D Kino, 3-D Homecinema, 3-D Fernsehen, 3-D Netzsurfen – alles mit Echtem in 3-D aufgenommenen Videomaterial, 3-D Animationen oder in 3-D umgewandeltem alten 2-D Material.
Wenn jetzt schon nicht mehr dem Wahrheitsgehalt von Photos vertraut werden darf, dann wird das Photo in Zukunft immer mehr von der abgebildeten Realität losgelöst sein – je einfacher die perfekte Bildmanipulation wird, desto mehr wird sich das selbst manipulierte aber echt aussehende Photo bald.
Mehr
Die vorgestellten Tools sind nur ein kleiner Ausschnitt aus den auf der Siggraph 2007 vorgestellten Arbeiten. Wer will, kann auch noch viele weitere interessante Projekte finden in
der Übersicht aller Siggraph 2007 Vorträge und Arbeiten
Und hier weitere in Videos vorgestellte interessante Sachen:




















