Wir hatten ja schon einmal in einem Kurztipp beschrieben, wie sich mit einem separaten Rendercache die Arbeit unter DaVinci Resolve deutlich beschleunigen lässt. Kurz zusammengefasst: Man kann in Resolve einstellen, dass beispielsweise das Debayering (auch gerne zusammen mit einem rechenaufwändigen Denoising und evtl. etwas Motion Blur) in der ersten Node nicht jedes mal frisch in Echtzeit berechnet werden muss. Stattdessen kann Resolve das (Zwischen-)Ergebnis automatisch in einem Backgroundcache ablegen, der dann die Ausgabe dieses Nodes als unkomprimierte Einzelbilder speichert und diese im weiteren Node-Baum verwendet. Solange man an den Parametern des Nodes nichts mehr verändert steht so für die weiteren Effekte wieder die volle GPU-(und CPU-)Leistung zur Verfügung.
[UPDATE:] Wir hatten irrtümlich im folgenden Artikel die Preise der PM961 herangezogen, was nun korrigiert ist.
Die Samsung SM961 - schnell und (relativ) günstig
Wir haben die neue Samsung SM961 SSD zum Anlass genommen, dies noch einmal näher in der Praxis auszuprobieren. Vorweg sollten wir vielleicht erst einmal ein paar Hintergründe zur Samsung SSD SM961 beleuchten. Hierbei handelt es sich nicht um eine “übliche” SSD, die man über einen SATA-Anschluss mit dem Mainboard verbindet, sondern um ein PCIe M.2 Modul, das ohne Gehäuse ausgeliefert wird. Mehr zu unterschiedlichen SSDs gibt es hier zu lesen.
Entweder steckt man eine solche M.2-SSD in einen speziellen Mainboardsteckplatz oder man erwirbt dazu eine separate PCI-Adapterkarte, die dann die SSD über einen PCIe-Steckplatz im Computer zugänglich macht.
Kühle(nde) Karte
Unser Mainboard GA-X99-UD4 stellt zwar einen M.2-Steckplatz zur Verfügung, jedoch ist dieser nicht mit voller PCIe 3.0 x4 Geschwindigkeit angebunden. Daher waren wir auf eine PCIe-Adapterkarte angewiesen. Wir haben für diesen Kurztest auf eine aquacomputer kyroM.2 zurückgegriffen. Vor allem, weil der Hersteller diese Karte auch als Kit mit einer passiven Kühllösung anbietet. NVMe-SSDs können nämlich unter Dauerlast schnell heiß werden. Da sie als nackte Platinen geliefert werden, bleibt die Kühlung komplett am Anwender überlassen.

Die von uns eingesetzte Samsung SM961 ist dazu nur für OEMs und nicht für Endanwender gedacht, weshalb sich Garantieansprüche auch höchstens gegenüber dem Händler geltend machen lassen. Doch nicht nur deswegen ist eine zusätzliche Kühlung sicherlich nicht verkehrt. Genau unser Testmodell war nämlich von einem Fehler betroffen, der die SSD im Extremfall bei Überhitzung abstürzen lassen kann.
Dafür ist die SM961 gemessen an ihrer Leistung relativ günstig zu erstehen. Ca. 140 Euro klingen zwar für eine "normale" 256 GB SSD nicht unbedingt nach Schnäppchen, jedoch hat es die SM961 in sich. Denn sie schafft es lesend beinahe das PCIe 3.0x4 Limit zu erreichen. Sprich über 3000 MB/s pro Sekunde. Und auch schreibend sind die angesagten 1.400 MB/s momentan ein Spitzenwert. Für einen Rendercache, der ja nur häppchenweise Einzelbilder aufnimmt ist dabei auch die Größe von 256 GB mehr als ausreichend dimensioniert. Und sollte die SSD tatsächlich einmal aus Überhitzung abstürzen, so wäre dies im Falle eines Caches kein Beinbruch...
Die Praxis
Kurz gesagt: Der Einsatz der SM961 als Rendercache funktioniert einfach beeindruckend. Hat man sich die Arbeitsweise einmal angewöhnt auf dem ersten Node (oder einem universalen Timeline Node) den Rendercache zu aktivieren, startet das Programm unmittelbar bei bei Inaktivität auf dem Desktop mit der Hintergrundberechnung. Dabei empfehlen wir ruhig die Wartepause, bis der Backgroundrenderer anspringt auf den minimalen Wert von 1 zu setzen:

Die Auswahl des richtigen Codecs für Zwischenspeicherung macht es dann noch einmal interessant. Wenn man RAW-Material mit sehr hohem Kontrastumfang hat, erkennt man durchaus Unterschiede zwischen den Optionen.

Kurze Erkenntnis unsererseits: Nur bei "Uncompressed 16 Bit Float HDR" sowie bei “DNxHR444 – HDR” lässt sich auch nach einer extremen Farbkorrektur kein Unterschied zwischen dem gecacheten Frames und dem Echtzeit-Debayering ausmachen. Alle anderen Optionen (10 Bit Uncompressed, sowie die übrigen DNxHR-Varianten) reduzieren die gespeicherte Dynamik sichtbar.
16 Bit Float benötigt dabei 48,6 MB für einen 4K-Frame, DNxHR444 – HDR dagegen “nur” 7,1MB. Und hier kommt nun unser Rendercache ins Spiel: Denn das Scrubben funktioniert auch mit diesen beiden Top-Varianten butterweich wenn die Frames einmal im Hintergrund abgelegt wurden. Nachträgliche Korrekturen ab Node 2 flutschen dann ebenso weich in Echtzeit auf einer GTX1070 oder RX480, während sich die Timeline ohne aktivierten Rendercache schon sehr zäh anfühlt. Scrubbt man mit DNxHR444 in der 4K-Timeline, bringt dies allerdings auch unseren 6 Core i7 ganz schön ins schwitzen, während die CPU bei “Uncompressed 16 Bit Float HDR” fast nichts zu tun hat, weil die Bytes einfach nur von dem SSD-Cache praktisch ungewandelt durchgereicht werden. Somit kann der Rendercache auch eine starke CPU bei der Arbeit ersetzen und schon mit einer deutlich schwächeren CPU butterweiches 4K-Echtzeitgrading ermöglichen. Allerdings muss die SSD in diesem Fall mindestens 1.167 MB/s liefern können, was normale SATA-SSDs nicht leisten können.
Für die SM961 ist dies hingegen kein Problem. Der Vollständigkeit halber dazu auch mal ein kurzer Benchmark-Test…

Tatsächlich schafft die SM961 auch auf unserem System sequenzielle Leseraten über 3000 MB/s. In der Praxis war es hiermit sogar möglich mit 50 fps 4K Material in der Timeline ruckelfrei abzuspielen und zu scrubben. Und die ebenso bemerkenswerte Schreibrate von immerhin noch 1500 MB/s sorgt dazu dafür, dass beim Backgroundrendering hier in der Regel auch kein Flaschenhals vorliegt.
Und stabil?
Zur Stabilität ließ sich auch einiges Feststellen: Das im Computerbase-Artikel angesprochene Problem unserer Samsung-Firmware , welche bei hohen Datenraten die SSD nicht herunterregelt und dann abstürzt, war bei uns unter Resolve nicht reproduzierbar. Wir hatten absichtlich noch nicht den passiven Kühler und die Wärmeleitpads installiert, um das Problem eventuell provozieren zu können. Doch selbst wenn man die SSD unter Resolve im Dauerloop mit 4K 24fps "quält", erreicht man keinesfalls die von Computerbase angesprochenen Datenraten eines synthetischen Benchmarks über längere Zeit. Wir haben jedenfalls nun noch die Wärmeleitpads + Kühler installiert und trauen der Lösung hundertprozentig über den Weg.
Fazit
Die Investition in einen Resolve Rendercache wie diesen für ist unserer Meinung nach deutlich besser angelegtes Geld, als eine zweite GPU oder ein CPU-Upgrade. Unser Set aus SM961 + PCIe-Karte inkl. passiver Kühlung kommt dazu aktuell auf gerade einmal 170 Euro und macht 4K RAW Grading unter Resolve angenehm wie nie zuvor. Einzig eine etwas disziplinierte Arbeitsweise ist hierfür vonnöten und der Cache ist natürlich begrenzt. Unsere 256 GB erlaubten im "Worst Case" (16 Bit Float Uncompressed) das Cachen von 4 Minuten Timeline. Wenn die CPU mitspielt kann man auch DNxHR444 nutzen und landet dagegen schon bei 24 Minuten Timeline-Caching.