Praxis GPU/CPU-Hardware-Ratgeber für Blackmagic DaVinci Resolve

GPU/CPU-Hardware-Ratgeber für Blackmagic DaVinci Resolve

Bei uns sammelten sich in den letzten Monaten einige Erfahrungen für die Zusammenstellung eines DaVinci Systems. Noch keinesfalls komplett, jedoch hoffentlich schon hilfreich genug für eine erste slashCAM-Zusammenfassung.

// 10:56 Mo, 3. Mär 2014von

Im Rahmen unseres DaVinci-Tests haben wir uns mit dem Thema beschäftigt, welche Grafikkarte(n) nun eigentlich im Zusammenspiel mit Resolve besonders zu empfehlen sind. Der zugehörige Configuration Guide von Black Magic ist in dieser Hinsicht noch sehr konservativ, sprich: Er empfiehlt eigentlich nur sehr wenig Grafikkarten, die auch intern entsprechend getestet wurden. Da sich Grafikkarten verschiedener Serien jedoch in der Regel weitaus weniger Unterscheiden, als die Auswahl suggeriert und DaVinci durchaus sehr viele Karten stabil unterstützt, lässt sich hier durch etwas Recherche eine Menge Geld sparen.



Blackmagic empfiehlt für Resolve 10 aktuell die Nvidia GFX Titan. Diese Karte stellt aktuell Nvidias Performance-Zugpferd im Consumer-Bereich dar, hinterlässt mit rund 800 Euro aber auch schon deutliche Spuren im Budget. Mit 6GB hat die Karte komfortabel viel RAM. Fast die gleiche Rechenleistung bekommt man übrigens mit der bauähnlichen GTX 780 (Ti) schon für ca. 450 Euro (600 Ti), jedoch wird diese Karte von Nvidia wohl sehr bewusst nur mit 3GB RAM ausgeliefert.



Außerdem verfügt die Titan als einzige Karte im Consumer-Segment über "freigeschaltete" Double Precision Rechenmöglichkeiten. Und liefert damit auch gleich den Beweis, dass man diese Funktionen zwar für Supercomputer, jedoch nicht für DaVinci braucht. Wir konnten zumindest in den uns vorliegenden Messdaten keinerlei Korrelation zwischen DP-Rechenleistung und gesteigerter Performance feststellen.






RAM

Unsere bisherige Erfahrung zur GPU-Speichermenge: Für HD reichen weiterhin 1GB RAM knapp, für 4K können 3-4GB auch knapp ausreichen, wenn man nur homöopathisch die Noise Reduction, Motion Blur und Time Remapping in parallelen Nodes einsetzt. Die Effekte skalieren dabei wie erwartet mit der Auflösung im Ram-Verbrauch. Da 4K/UHD rund 4x mehr Pixel besitzen als FullHD/2K braucht man für ähnliche Effekte eben auch 4 mal mehr Speicher. Wer mit 4K bis auf weiteres auf der sicheren Seite sein will, sollte daher beim GPU-Neukauf so viel GPU-RAM nehmen, wie er aktuell für einen vernünftigen Preis bekommen kann. Außer bei den fast unbezahlbaren Quadro/Tesla/FirePro-Karten erhält man gerade pro GPU-Sockel nur maximal 6 GB. Und eben diese Ausstattung ist momentan nur bei Nvidias Titan (ab ca. 850 Euro) lieferbar. MSI hat jedoch eine Gaming R9 280X mit 6GB angekündigt, die mit einem Preis von 350 Euro eine höchst interessante Titan-Alternative für Resolve werden könnte.



Wer in absehbarer Zukunft kein Interesse an 4K hat, der dürfte auch noch lange mit 2-4 GB GPUs gut fahren, die man in deutlich günstigeren und interessanteren Ausführungen erhält (u.a auch als DUAL Karten).



Für die Lite-Version spielt RAM übrigens fast gar keine Rolle, da es hier keine Optical-Flow-Algorithmen für Motion Blur und Noise Reduction gibt. Mit “normalen” Nodes schafft man es praktisch nie, bei FullHD 1GB und bei 4K 4GB zum Überlaufen zu bringen.






TFLOPS und Performance

Dieser Punkt lässt uns bis heute nicht in Ruhe, denn die für Da Vinci relevante Rechenleistung der Grafikkarten (die von den Herstellern in Single Precision (SP-)TFlops angegeben wird), korreliert mit der zu erwartenden Leistung unter DaVinci Resolve nur bedingt. Wir hatten bis jetzt noch nicht genügend Grafikkarten im Test, aber durften schon ein paar seltsame Phänomene zu Gesicht bekommen.



Vielleicht erst einmal ein paar grundsätzliche Informationen, die wir bis jetzt über Relevanz diverser Komponenten unter DaVinci Resolve zu wissen glauben:




Decoding



Sobald ein komprimiertes Codec-Format wie MP4, AVC, ProRES oder ähnliches zum Einsatz kommt wird am Anfang der Signalverarbeitung ausschließlich die CPU verwendet. Da zum Decodieren unter anderem ffmpeg und Quicktime benutzt werden, ist es um die Multithreading-Fähigkeit beim Decodieren nicht optimal bestellt. Unsere Erfahrung zeigte bisher zumindest, dass wenige höher taktende Kerne hier deutlich agiler zu werke gehen als viele, eher langsame CPU-Kerne. Ein sicher auf 4 GHz übertakteter 6 Core i7 gehört somit wohl zum “Sweet Spot” eines Single Core Resolve Systems, das mit komprimierten Videoformaten umgehen soll.



Kommen dagegen Raw-Files von Blackmagic, Arri, Red oder Sony zum Einsatz, so findet das Debayering auf der GPU, also auf der Grafikkarte statt und konkurriert dort mit den anderen Effekten um den manchmal knappen Speicher. Im Gegenzug befinden sich die Frames nach dem Debayering bereits auf der GPU, was Bandbreite zwischen CPU-RAM und GPU-RAM spart. So kommt es denn auch, dass sich RAW-Material auf der Timeline (im wahrsten Sinne des Wortes) wie Butter scheiden lässt. Kaum Prozessor-Last in Verbindung mit einer schnellen SSD sorgen hier für ein wahrlich luxuriöses Schnittgefühl. Wer in erster Linie FullHD/2,5K-Blackmagic RAW-bearbeitet, kann sich bei der CPU-Austattung unter Resolve einen teuren Prozessor sparen.








Effekte

Tracker



Die Wirkung der GPU-Architekturen auf die Geschwindigkeit diverser Effekte ist enorm unterschiedlich. Der Tracker scheint vor allem auf der CPU zu laufen. So konnten wir auf unserem Testsystem keinen Geschwindigkeitsunterschied zwischen einer betagten GTX470 mit 1,2 GB und einer noch relativ frischen GTX770 mit 4GB feststellen. Veränderungen an der CPU dagegen schon: So kam unser Quad-Core i7-2600K im Tracking-Test mit 3,4 GHz auf 61 Sekunden, mit 4,0 GHz auf 55 Sekunden und mit 4,4 GHz auf 51 Sekunden. Exakt diesen letzten Wert schaffte auch der neue Mac Pro mit 12 Kernen (ála 2,7 GHz).



Wheels, Kurven, Masken und Blur



(Von uns) so genannte InSitu-Effekte, bei denen keine Pixel bewegt werden scheinen weder CPU noch GPU sonderlich zu fordern. Einfache Farkorrektur-Nodes per Kurve oder Wheels auch mit Maske berechnet eine betagte GTX470 mit 1,2GB sogar in 4K noch gefühlt genau so schnell wie eine GTX770 mit 4GB. Obwohl die GTX770 laut technischer Daten fast dreimal schneller ist (1088 vs. 3213 TFLOPS), gab sie in unserem Test 4 weichgezeichnete und maskierte 4K-Nodes auch kaum schneller wieder als die GTX 470 (12 fps vs. 10fps). Interessanterweise erreichte der Verbund der beiden ungleichen Karten dagegen zusammen 17 fps. Es scheint also, als ob der Einbau einer zweiten Karte bei den Standard-Effekten immer deutlich mehr bringt, als der nackte Blick auf die TFLOPS.



Erst bei den neuen OpticalFlow-Algorithmen trennt sich die GPU-Spreu deutlich vom Weizen. Dies merkt man auch daran, dass dass meist erst bei deren Einsatz das Strom-Messgerät nach oben schnellt und die GPU-Lüfter anfangen zu heulen. Auch der MacPro im Maximalausbau fing hierbei an, deutlich wärme abzugeben und seine Oberfläche wurde dabei schon fast unangenehm heiß. Mangels der entsprechenden GPUs in der Redaktion können wir (noch) keine fundierten Aussagen zu den einzelnen Modellen machen, jedoch zeigt sich aus den bisherigen, vorliegenden Daten, dass die alten GTX570/580 und die AMD Tahiti-Modelle (u.a. die aktuelle R280x) Serie bei komplexeren Berechnungen wie Noise Reduction durchaus mit der GTX Titan in einer Liga spielen, während die GTX 600er- und 700er Serie in diesem Bereich etwas zurückfällt.





Watt denn nu?

Wir haben auch etwas mit Over- und Underclocking der GPU gespielt und mussten dabei feststellen, dass der Einfluss der Taktfrequenz auf die FPS ziemlich genau mit der Frequenzerhöhung/-absenkung korreliert. Doch durch die neuen Boost-Funktionen der GTX-Serie schwankt der Abstand zur Basisfrequenz je nach Prozessortemperatur, was ein konstantes Overclocking deutlich erschwert. Da wir jedoch hiermit höchstens Leistungssteigerungen im 5-10 Prozentbereich erzielt haben, finden wir dieses Thema nicht sonderlich spannend.



Im Bezug auf den Stromverbrauch kann dagegen das Untertakten recht praktisch sein. Denn ein Unterschied von 1 fps bei der Optical-Flow-Berechnung dürften in den meisten Fällen egal sein. 50 Watt weniger Stromverbrauch der Grafikkarte können jedoch über den Einsatz einer zweiten Grafikkarte in einer Dual-Konfiguration entscheidend sein, wenn das Netzteil knapp dimensioniert ist.



Nach unseren (eher groben Messungen) mit einem externen Strommessgerät scheint der Stromverbrauch der GPUs auch unter DaVinci nicht ganz so extrem zu sein, wie man Aufgrund der Maximal-Last-Angaben der Hersteller befürchten kann. Denn der Maximal-Verbrauch der GPU bezieht sich immer auf die Totale Auslastung der GPU im klassischen Spiele-Betrieb. Beim unseren Grading-Benchmarks mit teilweise 2 x 230Watt Grafikkarten kam unser Core i7-2600K Testrechner mit 550W-Netzteil dagegen niemals über 400W hinaus, wohl auch, weil beim Graden praktisch alle Textur-Einheiten der GPU eben nicht angefasst werden. Allerdings haben wir dieses Thema noch nicht erschöpfend untersucht, weil wir bisher die 3D- und Skalierungsfunktionen von DaVinci Resolve nicht vermessen haben. Diese könnten theoretisch den Stromverbrauch noch einmal deutlich nach oben schnellen lassen.






Dual oder mehr

Diese Frage ist insofern interessant, als man in Resolve durch zusätzliche GPUs seine Rechenleistung nahezu linear ansteigen lassen kann: Zwei identische Karten sind dabei wirklich fast doppelt so schnell wie eine und Tests aus dem Internet deuten an, dass man auch mit 4 Karten fast die vierfache Performance erhält. Den Ausbau auf 4 Karten behindern jedoch praktische Einschränkungen, wie das Netzteil und der Mainboard/Gehäuseplatz mit entsprechenden freien Steckplätzen. Brauchbare Karten gibt es übrigens ausnahmslos nur im Dual-Slot Design, bei dem der Lüfter und die Ansschlussleiste einen benachbarten PCIe-Slot blockieren. Ein System mit mehr als 2 Karten muss daher sorgsam geplant werden. Sowohl Windows-, als auch Mac Version unterstützen übrigens nur 4 GPUs, wobei DualGPU-Platinen auch wie 2 GPUs gezählt werden.



Der Hinweis, dass man für DaVinci eine eigene Grafikkarte zur Oberflächendarstellung vorhalten sollte, scheint uns kaum noch relevant, besonders wenn die Steckplätze knapp sind. Denn bei unseren Tests beschleunigte eine zusätzliche GUI-GPU die Effekte immer nur noch marginal. Deutlich mehr Leistung erhält man durch Voll-Ausbau der freien PCI-Slots mit möglichst potenten Karten, von denen dann eine das GUI darstellt UND mitrechnet.



Wir hatten übrigens teilweise die integrierte Intel HD-Grafik unseres Core i7-2600k für das GUI benutzt. Mit dem Ergebnis, dass dieser Rechner gegenüber einer eine Single Nvidia GPU, die auch für das GUI zuständig war, in der Performance merklich einbrach. Das Abschalten der Intel-Grafik wirkte wie das Lösen einer Handbremse, obwohl sie eigentlich die Nvidia-Karte mit der GUI-Darstellung entlasten sollte.



Übrigens müssen die eingebauten GPUs nicht zwingend aus der gleichen Serie stammen, jedoch sollten (und können unter Windows) Hersteller (also AMD/ATI oder Nvidia) nicht gemixt werden. Wir hatten Testweise eine GTX470 im Verbund mit einer GTX770 in unserem Rechner, was das Duo in vielen Berechnungen auf das Niveau einer GTX 780 hob. Wenn jedoch nur eine der Karten zu wenig Speicher hat funktionieren die speicherhungrigen Optical Flow Algorithmen nicht mehr. Es genügt für 4K also nicht wenn eine Karte 6GB besitzt, sondern alle Karten müssen hiermit ausgestattet sein. Dazu dürfte es auch für Resolve effektiver sein, die Leistung zu verteilen wenn es identische GPUs vorfindet.



Soweit schon mal unsere aktuellen Weisheiten zur Resolve 10 Konfiguration. Wir arbeiten gerade an konkreten GPU-Tipps, die wir in kürze in einem weiteren Artikel an dieser Stelle veröffentlichen werden.



Ähnliche Artikel //
Umfrage
    Mit welchem Programm schneidest Du?














    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash