Frage von Andreas_Kiel:siehe
hier. Die Zielgruppe wundert da irgendwie nicht: "Sony stellt
in den USA mit seinem HDR-CX12 einen kompakten Camcorder vor ..."
BG,
Andreas
Antwort von Axel:
Um die Mundwinkel zu dehnen und die Zähne zu blecken - das einfrierbare Lächeln -, fordert man die Portraitanten in den USA auf, "cheese" zu sagen. Bei uns hat sich "Scheiß-Reis" bewährt. Die Spracherkennung in der Kamera ist jetzt schon multilingual. Spricht man im Beisein der Kamera übers Essen, kann man auch in den manuellen Modus schalten.
Antwort von WoWu:
Wen wundert"s .... MPEG 4 ist eben sehr viel mehr als nur 2 dimensionale Bilder. Das ist ja erst der Anfang. Smile Shutter sind ja nur die Spielereien, weil den Entwicklern noch keine besseren Applikationen einfallen.
Antwort von Jan:
Ich halte gar nichts davon. Es betrifft ja nur den Fotomodus, es gibt ja schon einige Digicamhersteller die es inzwischen auch beherrschen.
Ich hab in meiner Firma mit den neuen Sony Lächelkameras sehr selten so ein Bild hinbekommen, weil die Kamera nicht oft im richtigem Moment ausgelöst wurde, oder die Kamera erkannte mehrfach die lächelten Personen nicht.
Das geht nur zu Lasten der Geschwindigkeit der Kamera.
VG
Jan
Antwort von WoWu:
Man darf dahinter nicht nur die "lächerliche" Applikation sehen. Für mich ist das ein deutliches Zeichen, wie entschieden jetzt auch weitere MPEG4 Features von den Firmen angepackt werden. Das MPEG4 Feld bietet ja noch einen riesigen Haufen an Features mehr.
Wie gesagt, die Gesichtserkennung und jetzt Face Coding sind halt nur die ersten Schritte. Enden wird das ganze mit einer funktionierenden Flexmux und objektorientierten Videos.
Diese Kinderspielzeuge sind nur Abfallprodukte.
Antwort von TheBubble:
Die Erkennung von Features in Bildern ist unabhängig von Aufzeichnungsformaten, das hat erstmal nichts miteinander zu tun.
Antwort von WoWu:
Dann schau Dir mal die MPEG4 Spezifikation an .... und nicht nur den Codec bzw. den Bitstream ....... Lesen, lesen, lesen ...
Abgesehen davon, wo habe ich geschrieben, dass es etwas mit dem Aufzeichnungsformat zu tun haben soll ?
Lesen.. lesen.. lesen ..
Antwort von TheBubble:
Dann schau Dir mal die MPEG4 Spezifikation an .... und nicht nur den Codec bzw. den Bitstream ....... Lesen, lesen, lesen ...
Und schau Du Dir mal die Welt außerhalb von MPEG 4 an. Nicht alles hat automatisch damit zu tun, nur weil es vielleicht auch dafür irgendwie nützlich sein könnte.
Und noch etwas: Der Tonfall ("Lesen.. lesen.. lesen ..") gefällt mir nicht.
Antwort von WoWu:
@ thebubble
Und noch etwas: Der Tonfall ("Lesen.. lesen.. lesen ..") gefällt mir nicht.
man kann nicht immer jedermanns Geschmack treffen.
Was MPEG4 angeht, so reduzierst Du es vermutlich auf das, was Du davon kennst.
Ich kann daher folgend Lektüre empfehlen:
(ISO/IEC 14496).
Das gesamte Verfahren, heißt eigentlich "MPEG4-Coding of audio–visual objects"
Und, wie die Bezeichnung schon sagt, umfasst er weitaus mehr als nur ein Coding– Format.
Es ist ein Multimedia Bitstream– Format, ein ganzes Multimedia Framework, für natürliches, aber auch synthetisches Audio– und Video Material und enthält eine sehr umfangreiche Toolsammlung für Video und Audio Kompression.
Der gesamte MPEG4 Standard fächert sich auf in 8 Sektionen:
ISO/IEC 14496–1 (Systems) .... bis ISO/IEC 14496–8.
Tools: BiFS, Object Descriptors, FlexMux, MP4 File Format, etc.
ISO/IEC 14496–2 (Visual) Natürliches und synthetisches Coding, sowie Gesichts und Körperanimation SO/IEC 14496–3 ... usw.
Das von Dir
Welt außerhalb von MPEG 4 angesiedelte findest Du in ISO/IEC 14496-2 im Detail.
Wie ich schon sagte... lesen, lesen, lesen und nicht nur schnacken...
oder ist nomen hier omen ?
Antwort von Markus:
Wie ich schon sagte... lesen, lesen, lesen und nicht nur schnacken...
oder ist nomen hier omen ?
Deine Aufforderung "lesen, lesen, lesen" impliziert halt, dass alle, die Dir widersprechen, keine Ahnung haben, wovon sie da reden. Ich habe jedoch vielmehr den Eindruck, dass hier zwei verschiedene Aspekte desselben Themas diskutiert werden: Die Theorie auf der einen Seite und die Praxis auf der anderen.
Was nützt es den Anwendern, wenn etwas von der Theorie her gut ist, aber noch nicht ausreichend umgesetzt wurde?
Antwort von Daigoro:
Was nützt es den Anwendern, wenn etwas von der Theorie her gut ist, aber noch nicht ausreichend umgesetzt wurde?
Das alte Thema - hab ich ihm ja auch schon hundert mal versucht zu erklaeren.
Wenn man sich die bisherige Entwicklung anschaut, wird das auch nie ausreichend umgesetzt werden - zumindest nicht im Consumer Bereich.
Da benutzen die Firmen ihre Entwicklungen nicht dazu bessere Geraete auf den Markt zu bringen (wieso auch, macht das hoeherpreisige Segment ja kauptt?), sondern um alles billiger bei gleichbleibender und teilweise sogar sinkender Performance zu machen.
Antwort von Axel:
Aber warum nicht spekulieren? Was würde man sich den von denn Möglichkeiten, die diese intelligent eingesetzte Mustererkennung eröffnet, versprechen? Ich könnte mir zum Beispiel nicht vorstellen, dass ein Bildstabilisierungssystem, das auf diesem Prinzip beruht, in der Praxis jemals eine schlechte Kameraführung ausbügelt.
Aber wie steht"s mit Daten für Motion Tracking? Differenzkeying? Das würde mir gefallen.
Als Abfallprodukt für Urlaubsfilmer der digitale Übergangseffekt mit Morphing.
Polizei, Verfassungsschutz, Medizin, Astronomie, da gibt es sicher viele Möglichkeiten, aber die interessieren hier wohl nur am Rande.
Antwort von Daigoro:
Aber warum nicht spekulieren?
Best case oder worst case?
Aber wie steht"s mit Daten für Motion Tracking? Differenzkeying? Das würde mir gefallen.
Funktioniert das denn im Computer schon gut automatisch?
Was wuerde es fuer die Qualitaet des Tracking oder Keying bringen das vom Computer in die Kamera zu verlegen?
"Intelligenter" wird das nicht - hoechstens einfacher (bei vergleichsweise genauso bescheidener Qualitaet) und billiger - so wie die digitalen effekte, die wir jetzt schon in der Kamera haben.
"Zu arm fuer nen richtigen Urlaub? Unsere Zony VPHMAXYLK 33 HD und eine Blaue Wand erschaffen fuer nur 599,- die perfekte Urlaubsillusion *in* der Kamera. Besuchen Sie virtuell eine von 26 voreingestellen exclusiven Locations - ihre Nachbarn werden staunen". :D
Da gab's mal anfang der 80er einen lustigen Osteuropaeischen Film von einem Jungen, der allein in einem Raumschiff gelebt hat und "Freunde" nur virtuell in einem Enterprise Holodeck (jahrzehnte vor Enterprise NG) maessig aus einem Projektorraum hatte.
Super sache.
Und objektorientiertes oder inhaltsbasiertes Video-Encoding klingt ja erst mal toll und revolutionaer - aber das gab's auch schon zu 8bit Zeiten mit "Sprites" und "parallax scrolling" - Problem dabei: die Technik ist zu 'dumm' und zu langsam um Daten aehnlich dem menschlichen Auge zu verarbeiten.
Im Computer-Bereich sind die 'virtuellen Welten' inzwischen immer komplexer und benoetigen mehr Daten fuer eine 'fotorealitsische' Darstellung (siehe MS Flugsimulator).
Einen gewissen Spassfaktor kann ich bei der "zurueck in die Zukunft" entwicklung der Videofuzzis auf jeden Fall entdecken. :)
So, genug spekuliert.
Antwort von Axel:
Best case oder worst case?Wünsche, also best case. Wenn die Technik reif ist, kratzen wir die Überreste vom Beton der harten Tatsachen, auf die die Wünsche aufklatschten. Ein Professor tätschelt uns dann die Schulter und tröstet uns mit dem Potential, das die Technologie für die Zukunft bereithält. Ad infinitum.
Aber wie steht"s mit Daten für Motion Tracking? Differenzkeying? Das würde mir gefallen.
Funktioniert das denn im Computer schon gut automatisch?
Was wuerde es fuer die Qualitaet des Tracking oder Keying bringen das vom Computer in die Kamera zu verlegen?
"Intelligenter" wird das nicht - hoechstens einfacher ...
Ich bin kein Kybernetiker, aber das Motion Tracking, das heute durch nachträgliche Analyse des Videos durchgeführt wird, sehe ich als eine Mustererkennung in den Kinderschuhen an. Da wird es bestimmt gewaltige Fortschritte geben. Etwa, wenn in einer Aufnahme bereits ein sich bewegendes Objekt von dem durch Kamerabewegung geänderten Hintergrund unterschieden würde. Wenn 3D Informationen wie perspektivische Achsen, Kamerastandpunkt usw. das Video beschreiben würden und nicht nur, wie jetzt, die Positionen der Pixel. All dies ist laienhaft ausgedrückt.
Ob uns das was bringt? Kennst du das Auswahlwerkzeug "Zauberstab" aus Photoshop? In älteren Versionen hättest du damit den Himmel (etwa den Abendhimmel mit natürlichem Verlauf von Dunkelblau zu Lachsrosa) nicht auswählen können, ohne dabei eine Person im Vordergrund mit zu erfassen. Jetzt geht das. Kommt einem vor wie Zauberei. Ich finde, es bringt sehr viel.
Das, was man hat, kommt einem aber dann selbstverständlich vor, und man freut sich weniger darüber. Und es macht einen nicht zum besseren Handwerker, geschweige denn Künstler. Hätte man Michelangelo erzählt, dass es in der Zukunft bessere Farben für ein Fresco geben werde, was hätte er wohl geantwortet? Sich zu sehr mit der Theorie zu befassen ist Gift für jeden kreativen Impuls. Zumindest muss man sich auf die Werkzeuge konzentrieren, die in der Gegenwart verfügbar sind. Man darf nicht aufhören, zu lernen und zu üben, am Ball zu bleiben auch mit der technischen Weiterentwicklung. Orakeln sollte man aber nicht glauben. Sonst winken Elfenbeinturm, Holodeck oder Gummizelle.
Antwort von WoWu:
@ Markus
Man sollte nur sagen, es hätte nichts mit MPEG4 zu tun, (wie geschehen), wenn man es weiss. Ansonsten, wenn man nicht in den EU Arbeitgruppen selbst mitgemacht hat, hilft eben nur lesen.. lesen.. lesen.
Es hat sehr wohl mit MPEG 4 und MPEG 7 zu tun, daher ist eine solche Implikation auch für den richtig den sie betrifft.
Klar gibt es noch andere Methoden der Face-, Motion- und Emotion- Identification nur die meisten derzeit angewandten Methoden beruhen auf den o.g. Verfahren. Insofern ist die Aussage einfach nur falsch.
Es wäre also nicht mehr als Angebracht gewesen, wenn nicht nur die Formalie sondern auch die Inhalte als Grundlage deines Beitrags Bewertung gefunden hätten.
@ Daigoro und Axel
Es ist völlig richtig, es kommt immer darauf an, wie es genutzt wird und offensichtlich zunehmend auch wer es nutzt.
Die Bifs aus MPEG 4 werden heute bereits zur Gesichtskontrolle bei den "unbemannten" Grenzübergängen benutzt ... es wird also nach wie vor kontrolliert, nur eben nicht mehr durch Anhalten.
Ein 24 Stunden Video auf ein bestimmtes Gesicht hin zu analysieren dauert derzeit weniger als 1 Sekunde.
Die Kombination aus MPEG4 und 7 ist derzeit Stand der Technik und fast nicht mehr weg zu denken. (in so manchen Bereichen -leider-)
Daher stimme ich mit Axel durchaus überein, warum es also nicht auch Einzug in die Consumerbereiche halten soll.
Klar geschieht die Umsetzung ziemlich langsam, wenn man bedenkt, dass wir bereits 1998 fertige Modelle hatten, bei denen Philips den Lead in den Projekten hatte. Das ist jetzt 10 Jahre her und nun endlich kommen die Consumerkameras.
Ich denke, das liegt daran, dass zunächst der Bitstream ausgekoppelt und zur Standardisierung gebracht wurde, um der Industrie auch Planungssicherheit zu geben.
Daher denke ich auch, dass es in den kommenden Modellen immer weitere zusätzliche Features geben wird und gegen objektorientiertes Video habe ich auch nichts.
Und die, die solche Technologien nicht haben sollten, haben sie schon seit dem letzten Jahrtausend.
@ Axel
Die Anwendungen solcher Mustererkennungen liegen auf der Hand, sobald man sich einmal vorstellt, was man mit einzelnen Objekten alles machen kann und man das Video auf die einzelnen Layer reduzieren kann.
Video wird in Zukunft sehr viel mehr Compositing als zweidimensionales "Abfilmen". Das soll gar nicht negativ bewertet sein, aber wenn man sich einmal ansieht, wieviel auch der Filmproduktionen bereits aus dem Computer kommen, dann sollte man sich fragen, warum es eigentlich solange gedauert hat, bis solche Möglichkeiten auch den Consumermarkt erreicht haben. (werden)
@ Daigoro
Problem dabei: die Technik ist zu 'dumm' und zu langsam um Daten aehnlich dem menschlichen Auge zu verarbeiten.
Mag sein, dass es noch so ist, deswegen kommen auch erst so kleine, ziemlich sinnlos wirkende Tools ... aber die Voraussetzungen sind eben gut, dass das nicht so bleibt und Du musst zugeben, seit den beschriebenen Beispielen hat sich viel getan und warum sollten wir im Videobereich nicht ähnlich Möglichkeiten haben, wie schon heute im Fotobereich ? Denk da mal 15 Jahre zurück, wie die Tools damals ausgesehen haben.
Es lohnt sich also wirklich, einmal die neuen Felder zu betrachten ... und da bietet eben MPEG4 ein riesiges Feld.
Man darf eben nur nicht den Fehler machen (um zum Ausgangspunkt zurück zu kommen), MPEG 4 auf das zu reduzieren, was wir heute davon sehen.
Antwort von videobob:
@woWu
Was ist denn mit deiner HP los?
Antwort von Daigoro:
Vielleicht seh ich auch einfach nur zu sehr, was an fundamentalem wir (im Consumerbereich!) nicht haben, um mich ueber solche 'Spielereien' so richtig freuen zu koennen.
Mir scheint halt manchmal in den real zu kaufenden Produkten die Marketingabteilung einen groesseren Einfluss zu haben, als eie "vernuenftige" Produktentwicklung.
Wieso werden die pixelchen langsam kleiner als das Licht?
Wieso sind fundamentalste Einstellungen nur noch ueber Menue, wenn ueberhaupt, erreichbar?
Wieso fehlen fundamentalste Anschlussmoeglichkeiten?
Wieso haben wir dutzende "HD" implementationen, die untereinander gemischt sch...e aussehen?
Die Liste liesse sich Seitenlang fortsetzen...
Antwort von WoWu:
@ videobob
Ganz herzlichen Dank für den Hinweis .... beim letzten Update ist wohl die falsche Index-Datei "gelandet". Hab"sie kurz ausgetauscht. Nochmals: vielen Dank.
@ Daigoro
Du rennst bei mir offene Tore ein !!!
Deswegen finde ich ja gerade auch die Entwicklung, hin zu einem übergreifenden Standard so attraktiv.
Und was glaubst Du, weshalb ich immer wieder den Finger in diese vielen "offenen Wunden" lege, weil die Marketingabteilungen sonst mit den Konsumenten machen was sie wollen .... und sie werden ja schon heute nach "Strich und Faden" vorgeführt.
Ich kann nur jeden einladen, ebenso kritisch zu hinterfragen, bis es endlich vernünftige Lösungen gibt.
Viele nehmen aber eben alles so wie"s kommt und freuen sich über die Bilder, wie sie sind ... das Recht sei ihnen unbenommen.
Nur, wie ich sehe, gibt es ja auch Leute, die nicht alles so "kaufen" und auch nicht alles glauben, was die Sonys und Panasonics dieser Welt ihnen vorzumachen versuchen.
Nur deswegen finde ich es ja auch so wichtig, mal in die Pipeline zu schauen, was denn da noch alles so drinstecken kann und vor allem auch, wie die Zusammenhänge einzuordnen sind.
Axel wirft mir ja vor, ich würde nur die derzeitige Technik schlecht machen ... dabei mache ich sie gar nicht schlechter, als sie wirklich ist, ich zeige eben (auch in meinem Buch) nur auf, wie sie denn ist, sage aber auch zugleich, wo das Potential für Verbesserungen ist und eben auch, wohin der Zug eines solchen, wie ich finde ziemlich guten und umfassenden Standards, auch noch fahren kann.
(Das bezieht sich allerdings auch auf zahlreiche Themen ausserhalb des Standards)
Jeder soll sich dann aussuchen, an welcher Stelle er auf den Zug aufspringt und auch wie lange er mitfahren will.
Aber Du hast mit dem, was Du sagst, völlig Recht und ich bin (leider auch) sicher, dass wir in der nächsten Zeit eben auch aus den Marketingabteilungen noch einige Nachrichten bekommen die nicht unbedingt dem Fortschritt dienen.
Ich habe schon einmal in einem andern Thread das Zitat von Goethe gebracht dass hier ebenso Gültigkeit hat:
Man muss das Wahre immer wiederholen, weil auch der Irrtum um uns her immer wieder gepredigt wird, und zwar nicht von Einzelnen, sondern von der Masse.
Antwort von Jan:
Ich muss aber noch zur Grundaussage meinen Senf dazugeben .
In dem Fall der Sony hat die erweiterterte Gesichtserkennung (Lächelerkennung) mehr mit dem neuen leistungsstarken Bionz Prozessor und seiner Helfer zu tun, als mit MPEG 4.
Sony hatte ja damals zugegeben, dass die Prozessortechnik noch zu langsam ist, um mehrere Gesichter oder wie jetzt sogar lächelnde Personen zu erkennen.
VG
Jan
Antwort von WoWu:
Wobei das BIONZ (auch so ein Fantasiename ohne jeglichen Grund),weil es keinen losgelösten Prozessor gibt, der diese Aufgaben übernimmt. das alles passiert im IP und nicht als ausgelagerter Prozess.
Das alles sind Prozesse, die im MPEG4 Standard definiert sind. Man muss sich unbedingt einmal davon lösen, dass MPEG4 lediglich auf den einen Teil des Standards beschränkt ist, den wir nun gerade einmal zum Coding benutzen. MPEG4 hat 24 !!! weitere Sektionen, die zum Standard gehören und erst in Gänze den Standard beschreiben.
AVC wird lediglich im Part 10 beschrieben und vielleicht noch das Containerformat in Part 14 ... ein großer Teil des Restes beschreibt weiterreichende Dinge.
Das mit der Rechenpower, wie Du beschreibst, mag wohl sein, das kommt immer darauf an, wieviel Hardware spendiert wird.
Moderne Kameras haben bereits ein Priority Processing vorgelagert, skalierbare Videos Algorithmen (SAVs), die sich dynamisch der Ausgangsqualität in Relation zur Verfügung stehenden Zeit und den gebotenen Ressourcen anpassen.
Nur das alles ändert nichts daran, dass der Weg ziemlich deutlich vorgezeichnet ist und dass all diese Features in MPEG4 definiert vorliegen, egal, welchen wuchtigen Marketingnamen dem Ganzen für die Kunden verpasst werden ... fehlt nur mal wieder der goldene Aufkleber !
Antwort von MacPro:
Das alles sind Prozesse, die im MPEG4 Standard definiert sind.
Das will dir ja niemand in Abrede stellen, dass der MPEG4 Standard so etwas bereit hält. Aber wieso ist es nicht denkbar, dass hier eigene Algorithmen am Werkeln sind? "Smile-Shutter" gibt es bereits seit 2 Jahren in Knipsen zu kaufen!
Antwort von WoWu:
Die Möglichkeit besteht natürlich, zumal es eine ganze handvoll unterschiedlichster Algorithmen gibt, ob nun muster-oder holistisch basiert. Die Frage stellt sich nur, warum sollten Firmen, die an der MPEG4 Entwicklung (und den natürlich damit verbindenen Patentrechte) nicht unerheblich beteiligt sind (und daran partizipieren) und ausserdem das Ziel der interaktiven Videobearbeitung mit Nachdruck verfolgen, ausgerechnet auf solche externen Algorithmen zurückgreifen ?
Wobei der Zeitpunkt (2 Jahre) noch kein Indiz dafür ist, dass es keine MPEG 4/7 basierte Applikation ist, denn die Voraussetzungen sind seit 1998 eigentlich gegeben.
Auch das Frauenhofer-Institut hat seit einigen Jahren den iFinder in CMS Systeme eingebaut .... und ist auch MPEG-basiert.
Aber Du hast natürlich völlig Recht, es könnten auch andere Verfahren sein, denn militärische Verfahren zur Objekterkennung werden seit den 80er Jahren eingesetzt.