Frage von andieymi:cDNG Sequenzen als ZIP Archivieren?
Was ich mir davon erhoffe? Leichtere Handhabbarkeit, bessere Performance bei Backups oder Umstrukturierungen. Konkret geht es um Rohmaterial das sonst halt bei anderen (hätte man sowas) nur mehr auf LTO liegen würde. Also nichts zum regelmäßig noch damit arbeiten, Sachen die archiviert bleiben sollen, aber nur für den unwahrscheinlichsten Fall, dass man sie wieder mal ausgraben muss.
Ich stell gerade von RAID5 auf RAID10 um und kämpfe stark mit den Kopierzeiten von DNG Sequenzen. Das Problem als solches sind weniger RAID Level oder Ähnliches, sondern einfach die Handhabbarkeit von Sequenzen als zigtausende Einzelfiles.
Konkret noch einmal die Frage: Was macht das für ein Fass an Risiken auf? Wenn überhaupt?
Antwort von cantsin:
andieymi hat geschrieben:
Konkret noch einmal die Frage: Was macht das für ein Fass an Risiken auf? Wenn überhaupt?
Das Risiko, dass Du Dir einhandelst, ist, dass bei einer beschädigten Zip-Datei viele oder alle enthaltene DNG-Dateien verloren gehen. Du kreierst also gewissermaßen einen "single point of failure". Zumal bei Zip die Verzeichnisinformation ganz am Ende der Datei gespeichert wird.
Da die DNG-Dateien (wenn sie nicht von der Sigma fp stammen) wahrscheinlich ohnehin schon intern komprimiert sind, würde ich nicht ZIP, sondern das klassische Unix-Tool tar verwenden, dass genau für diese Zwecke gedacht ist ("tar" = "tape archive").
Antwort von andieymi:
Danke, genau für solche Inputs bin ich dankbar!
In dem Fall werde ich das versuchen (tar funktioniert mit 7Zip), Kompression ist ohnehin nicht notwendig.
Antwort von klusterdegenerierung:
Gute Idee, denn beim durch browsen alter Archiv HDDs kommt Windows ganz schön ins strauchel und bis es erstmal die ganzen Ordner mit den unzähligen DNGs durch hat, hat man schon keinen Bock mehr.
Ist denn Tar dann so sicher das man es sich trauen kann, bzw auf Tar statt Ordner setzen kann?
Antwort von mash_gh4:
klusterdegenerierung hat geschrieben:
Ist denn Tar dann so sicher das man es sich trauen kann, bzw auf Tar statt Ordner setzen kann?
tar wird ja gegenwärtig auch in den gängigen container-formaten (docker images) ziemlich intensiv für ähnliche zwecke genutzt. das funktioniert in der praxis schon ziemlich gut -- kann also z.b. auch als virtuelles filesystem gemountet werden etc --, auch wenn es durchaus ein paar gründe gibt, warum es evtl. doch noch besser umgesetzt sein könnte. (siehe z.b.:
https://www.cyphar.com/blog/post/201901 ... ages-i-tar )
Antwort von Bluboy:
...das funktioniert in der praxis schon ziemlich gut
Ziemlich Gut ist nicht gut genug
Antwort von klusterdegenerierung:
Bluboy hat geschrieben:
...das funktioniert in der praxis schon ziemlich gut
Ziemlich Gut ist nicht gut genug
User die keine raw files produzieren brauchen sich darüber ja keine Gedanken machen.
Antwort von Bluboy:
Keiner muß sich Sorgen machen wenn er In Wiki die Vor und Nachteile von TAR nachliest und dannn trotzdem meint das ist das Richtige für ihn.
Antwort von klusterdegenerierung:
Bluboy hat geschrieben:
Keiner muß sich Sorgen machen wenn er In Wiki die Vor und Nachteile von TAR nachliest und dannn trotzdem meint das ist das Richtige für ihn.
So ist das immer im Leben, niemand muß mit einem Motorrad 230Kmh fahren, aber das muß man nicht erwähnen,
das weiß jeder!
Aber vielen Dank nochmal das Du Dir solche Sorgen um uns machst.
Antwort von andieymi:
Nicht streiten anfangen ;D
Ich denke der große Unterschied liegt bei der Sicherheit gewisser Daten immer in ihrer Natur. Bei Daten, die zu 99,9999%
nicht mehr gebraucht werden, deren Sicherung kein Kunde bezahlt (und man keinem garantiert hat) sind gewisse Risiken einzugehen.
Zum Motorradvergleich: Wenn eine vorliegende Notsituation 230km/h erfordert und durch zeitlich schnelles eingreifen verhindert werden kann und das Notfallrisiko jenes eines Verkehrsunfalls übersteigt, möglicherweise angebracht. Im anderen Fall muss man die 230km/h ja nicht fahren?
Wie gesagt - ich stehe vor der Entscheidung ob ich die Daten lösche oder in ein möglicherweise unsichereres Containerformat zur leichteren "Mitschlepperei" für die Zukunft aufstelle. Löschen jetzt bedeutet 100% gewollten und in-Kauf-genommenen Datenausfall, ich glaube mit den in Kauf genommenen Risiken von tar, die möglicherweise höher sind als die DNG-Sequenz offen vorliegen zu haben kann ich dann weiterhin gut leben und verliere nicht unersetzbare Lebenszeit durch kopieren von DNGs...
Antwort von cantsin:
andieymi hat geschrieben:
in-Kauf-genommenen Datenausfall, ich glaube mit den in Kauf genommenen Risiken von tar, die möglicherweise höher sind als die DNG-Sequenz offen vorliegen zu haben kann ich dann weiterhin gut leben und verliere nicht unersetzbare Lebenszeit durch kopieren von DNGs...
In Deinem Einsatzszenario stellt tar praktisch kein zusätzliches Risiko dar, weil tar so gedesignt ist, dass sich selbst bei beschädigten Archiven die Daten gut rekonstruieren lassen.
Antwort von Frank Glencairn:
andieymi hat geschrieben:
.. deren Sicherung kein Kunde bezahlt
Weshalb Archivierst du gratis Daten? Das macht doch keinen Sinn.
Antwort von mash_gh4:
cantsin hat geschrieben:
In Deinem Einsatzszenario stellt tar praktisch kein zusätzliches Risiko dar, weil tar so gedesignt ist, dass sich selbst bei beschädigten Archiven die Daten gut rekonstruieren lassen.
naja -- tar ist zwar definitiv die naheliegenste, gebräuchlichste und einfachste lösung für solche aufgaben, aber ich würde nicht so weit gehen, diesen sehr altmodischen und minimlistischen ansatz zu sehr zu verklären bzw. dessen limitierungen und probleme völlig zu übersehen.
die aufzeichnung auf magnetbänder, rotierende scheiben und flash-speicher und die dort jeweils anzutreffenden probleme und ausfallsymptome unterscheiden sich ganz wesentlich. deshalb sind in den letzten jahren auch einige interessante lösungen dazugekommen, die auf die eigenschaften neuerer speichermedien gezielt eingehen bzw. hier optimalere sicherheit und wiederherstellbarkeit bzw. validierung der aufgezeichneten daten erlauben.
in der praxis versucht man dabei sehr oft die anzahl der schichten bzw. abstraktionsebenen eher zu minimieren -- also bspw. RAID-funktionionalität direkt in die filesysteme zu integrieren --, weil manche probleme sich gerade erst aus dieser unkoordinierten schichtung ergeben od. zumindest mit reichlich ineffizienter redundanz und unnötigen aufwand verhindert werden müssen.
archivieren in vernünftigen filessystemen ist also sicher eine wesentlich weitsichtigere entscheidung, als einfach nur tar als lösung anzusehen.
ich würde die serialsierung von filesysteminhalten, wie man sie mit tar u.ä. bewerkstelligen kann, eher nur dort als wirklich zweckmäßig ansehen, wo entsprechende inhalte kompakt transportiert werden müssen, nicht aber unbedingt als idealform der archivierung.
allerdings müsste ich mich in wahrheit auch erst schlau machen, welche diesbezüglichen empfehlungen es von seiten wirklich kompetenter archivierungsspezialisten zu dieser frage gibt bzw. augenblicklich als beste lösung angesehen wird.
Antwort von Sammy D:
Ich verstehe das Argument mit den Kopierzeiten nicht. Das scheint mir ein einmaliger Vorgang zu sein, die Daten zu sichern.
Warum lässt Du das nicht einfach so lange laufen wie es dauert?
cDNG zu kopieren ist zwar unheimlich nervig, aber wir sprechen doch nicht von Daten von hunderten von TBs, oder?
Antwort von Frank Glencairn:
Was bei der ganzen technischen Diskussion meistens vergessen wird, ist die tatsächliche Daten-Relevanz.
Muss ich sämtliche Rohdaten von einem 5 Jahre alten Werbespot, von denen es gerade mal 10% in den fertigen Clip geschafft haben wirklich für weitere 10 Jahre archivieren, vor allem wenn keiner was dafür bezahlt?
Ich versuche - im Gegenteil zu der Eichhörnchen Methode - solche Daten (und Daten generell) so schnell wie möglich wieder los zu werden.
Entweder löschen, oder an den Kunden übergeben.
Das einzige was ich für mich wirklich archiviere sind persönliche Sachen, aus eher nostalgischen Gründen, oder wenn ich dezidiert dafür einen bezahlten Auftrag habe.
Antwort von cantsin:
mash_gh4 hat geschrieben:
cantsin hat geschrieben:
In Deinem Einsatzszenario stellt tar praktisch kein zusätzliches Risiko dar, weil tar so gedesignt ist, dass sich selbst bei beschädigten Archiven die Daten gut rekonstruieren lassen.
naja -- tar ist zwar definitiv die naheliegenste, gebräuchlichste und einfachste lösung für solche aufgaben, aber ich würde nicht so weit gehen, diesen sehr altmodischen und minimlistischen ansatz zu sehr zu verklären bzw. dessen limitierungen und probleme völlig zu übersehen.
Dem TO geht's doch um eine ganz einfache Frage: Wie kann man eine große Zahl von Einzeldateien (in relativ einfachen Verzeichnisstrukturen, ohne Symlinks und dergleichen) in eine Datei packen, ohne dass man dabei große Kompromisse bei der Datensicherheit machen muss. Ich wüsste nicht, warum tar für diesen Job nicht geeignet ist.
Und selbst wenn es da mittlerweile ausgefeiltere Lösungen geben sollte: Gerade die Tatsache, dass tar kein Exotentool ist, sondern auf jeder nur denkbaren Plattform problemlos - und frei - verfügbar, sehe ich in diesem Fall als wichtiges Plus bzw. als entscheidenden Vorteil bei der praktischen Datensicherheit, gerade wenn man nach vielen Jahren wieder an die Daten 'rankommen will.
Antwort von andieymi:
cantsin hat geschrieben:
In Deinem Einsatzszenario stellt tar praktisch kein zusätzliches Risiko dar, weil tar so gedesignt ist, dass sich selbst bei beschädigten Archiven die Daten gut rekonstruieren lassen.
Danke, das war eben der entscheidende Hinweis gegenüber .zip.
Ich würde es tatsächlich nicht überdramatisieren. Wie schon angesprochen, die Frage ist ob die Daten mittelfristig einfach gelöscht werden oder man einen einfacheren Weg zur Archivierung findet. Falls .tar "einfacher" bringt und vgl. mit .zip kleine Sicherheits-Vorteile bringt.
Auch letzter Post von Dir ist gut: Alles was irgendwie 'advanced' vgl. mit .tar wäre bringt üblicherweise Nachteile mit sich noch ändernden Standards, Softwareunterstützung etc., weswegen .zip erste Anlaufstelle gewesen wäre. Theoretische Vorteile in Weiterentwicklungen zu suchen und sich dann möglicherweise Software-Engpässe down the line einzufangen halte ich für nicht sinnvoll. Und paradoxerweise gehen die "Basis-Formate" meist länger als evtl. einige mit kleinen Vorteilen. Man denke nur mal wie groß nicht Cineform hätte werden können und heute kräht quasi kein Hahn mehr danach, ich wüsste nicht ob es überhaupt noch irgendwo nativ-Support gibt (gibt's vmtl, aber nicht in jeder Software und in 10 Jahren ist die Frage...)
"Frank Glencairn" hat geschrieben:
Weshalb Archivierst du gratis Daten? Das macht doch keinen Sinn.
Zum Beispiel weil es zwar kein Kunde zahlt, die Daten aber z.B. aus Musikvideos und anderen Herzensprojekten stammen, die man persönlich möglicherweise noch einmal für ein Reel oder Ähnliches verwenden möchte. Macht man den Job nicht seit 20 Jahren, ist es durchaus auch aus "sentimentalen Gründen" interessant, sich Sachen aufzuheben um z.B. zu sehen, wie man sich in den letzten 5-6 Jahren entwickelt hat. Was ich teilweise auch szenische Sachen aus der Studienzeit mal für ein Reel umgegradet hab, weils dort fürs Endresultat einfach suboptimal gemacht wurde z.B.
Also: Kein Kunde zahlt dafür weil es sich da größtenteils um No/Lowest-Budget Projekte handelt, bei denen ich einen gewissen Sinn sehe die Daten aufzubewahren, allerdings nicht auf Kosten von mehrstufiger Ausfallsicherheit & "Lebenszeit".
Aber insgesamt sehe ich das auch so, bei Werbeprojekten z.B. mehr als die Kopierer über Jahre zu archivieren ist sinnlos. Da hängt dann aber auch oft weniger was dran für einen persönlich.
Wie gesagt: Die Sicherheit nicht überinterpretieren, es geht nur drum ob man das Zeug noch ein paar Jahre mitschleppt und es dann bei Sachen wo's was zählt die Datensicherheit 5x so lang dauert weil da ein 2TB DNGs dranhängen oder nicht. Nicht mehr, nicht weniger.
Antwort von mash_gh4:
andieymi hat geschrieben:
Danke, das war eben der entscheidende Hinweis gegenüber .zip.
...
Falls .tar "einfacher" bringt und vgl. mit .zip kleine Sicherheits-Vorteile bringt.
...
Auch letzter Post von Dir ist gut: Alles was irgendwie 'advanced' vgl. mit .tar wäre bringt üblicherweise Nachteile mit sich noch ändernden Standards, Softwareunterstützung etc., weswegen .zip erste Anlaufstelle gewesen wäre. Theoretische Vorteile in Weiterentwicklungen zu suchen und sich dann möglicherweise Software-Engpässe down the line einzufangen halte ich für nicht sinnvoll.
genau deshalb würde ich dir auch nicht raten, irgendwas komplizierteres zu verwenden, trotzdem aber zu überdenken, ob ein derartiges zusammenfassen der dateien in einem archiv tatsächlich nötig ist?
wenn das nämlich nicht der fall ist, ist eine ganz simples kopieren der dateien auf ein verlässliches filesystem nämlich im sinne der von dir hervorgehobenen gründe ("sicherheits-vorteil", "Basis-Format"...) schlicht und einfach vorteilhafter als .tar od. .zip.
Antwort von cantsin:
mash_gh4 hat geschrieben:
wenn das nämlich nicht der fall ist, ist eine ganz simples kopieren der dateien auf ein verlässliches filesystem nämlich im sinne der von dir hervorgehobenen gründe ("sicherheits-vorteil", "Basis-Format"...) schlicht und einfach vorteilhafter als .tar od. .zip.
Irgendwie dreht sich die Diskussion hier im Kreis, und niemand liest genau, was der TO eigentlich sucht und braucht. Ich zitiere noch mal sein Eingangsposting:
"Ich stell gerade von RAID5 auf RAID10 um und kämpfe stark mit den Kopierzeiten von DNG Sequenzen. Das Problem als solches sind weniger RAID Level oder Ähnliches, sondern einfach die Handhabbarkeit von Sequenzen als zigtausende Einzelfiles."
Antwort von mash_gh4:
cantsin hat geschrieben:
Irgendwie dreht sich die Diskussion hier im Kreis, und niemand liest genau, was der TO eigentlich sucht und braucht. Ich zitiere noch mal sein Eingangsposting:
"Ich stell gerade von RAID5 auf RAID10 um und kämpfe stark mit den Kopierzeiten von DNG Sequenzen. Das Problem als solches sind weniger RAID Level oder Ähnliches, sondern einfach die Handhabbarkeit von Sequenzen als zigtausende Einzelfiles."
ich versteh die problematik des TO durchaus, trotzdem gilt es halt einfach auch manchen dingen zu widersprechen, die im hier am rande der diskussion von div. teilnehmern suggeriert werden.
wenn also hier der eindruck vermittelt wird -- und das hat ja der TO mit seiner letzten mail geradezu bestätigt --, dass ein .tar-archiv größere wiederherstellungsmöglichkeiten besitzten soll, nur weil es im zusammenhang mit der ursprünglichen genutzten bandaufzeichnung in dunkler vergangenheit einmal derartige vorteile hatte, ist das einfach sehr bedenklich bzw. faktisch einfach nicht haltbar!
zeitgemäße filesysteme erledigen das deutlich besser! und da dort die entsprechende sicherstellung der korrektheit mittels checksummen, lowlevel-optimierungen im IO-prozess u.ä. auf kernel-level abgewickelt wird, ist das in der regel sogar deutlich schneller als im falle von user-level-tools wir tar od. pkzip....
aber, wie gesagt, ich versteh den wunsch des TO durchaus, nur ist die antwort darauf m.e. nicht ganze so einfach und selbstverständlich bzw. ohne abwägen von vor- und nachteilen zu erzielen.
Antwort von Bluboy:
Was mich interessieren würde
Um welche Datei oder Foldergrößen gehts da ?
Antwort von cantsin:
mash_gh4 hat geschrieben:
zeitgemäße filesysteme erledigen das deutlich besser! und da dort die entsprechende sicherstellung der korrektheit mittels checksummen, lowlevel-optimierungen im IO-prozess u.ä. auf kernel-level abgewickelt wird, ist das in der regel sogar deutlich schneller als im falle von user-level-tools wir tar od. pkzip....
Ja, und dann zielst Du auf eine Linux-Lösung mit einem Dateisystem wie ZFS oder btrfs (oder mindestens ext4) ab. Ich schätze aber mal stark, dass der TO klassisch unter Windows oder MacOS unterwegs ist und wie gesagt eine einfache Lösung für ein einfaches Problem braucht.
@Bluboy: Bei einer Stunde CinemaDNG 24fps in 30 Sekunden-Takes fallen 120 Ordner an, die jeweils 720 Dateien enthalten, bzw. insgesamt 86.400 Einzeldateien (bei FullHD und 3:1-Kompression ungefähr 1MB pro Datei, bei 4K ungefähr 4MB pro Datei, bzw. 0,7 GB/2,9 GB pro Ordner und 86 GB/347 GB insgesamt).