Ratgeber Mac Studio mit M1 Ultra - Volle Workstation-Performance?

Mac Studio mit M1 Ultra - Volle Workstation-Performance?

Spielt Apples M1 Ultra Prozessor wirklich in einer Liga mit AMD / Intel / Nvidia Workstations? Wir wagen uns an eine realistische Einschätzung...

// 10:04 Mi, 23. Mär 2022von

Mit dem Erscheinen des neuen Mac Studio Desktops präsentierte Apple auch ein weiteres mal spektakuläre Vergleiche zum neuen M1 Ultra Prozessor, die unter anderem suggerierten, dass Apple nun mit seinem Spitzenmodell in einer Liga mit AMD / Intel / Nvidia Workstations spielt. Wir wagen uns an eine realistische Einschätzung.




Ungeschlagene Effizienz

Zuerst darf und muss man vor Apples Stromverbrauch den Hut ziehen: Die Effizienz der neuen Systeme bleibt einzigartig. Vergleichbare Leistung ließe sich mit PC-Komponenten zwar mit großem Aufwand vielleicht noch ebenso kompakt verpacken, dann jedoch keinesfalls derart leise betreiben. Dies erreicht Apple jedoch nicht mit Magie, sondern mit dem (sehr kostspieligen) Zugriff auf die aktuell kleinsten Strukturen der Halbleiter-Massenfertigung von TSMC (5nm). Erst in diesem Spätherbst werden AMD und Nvidia ebenfalls konkurrierende CPUs und GPUs in dieser Strukturbreite auf den Markt bringen, wobei zu erwarten ist, dass damit der Effizienz-Vorsprung gegenüber Apples M1-Architektur deutlich schrumpfen wird.



Mac Studio mit M1 Ultra - Volle Workstation-Performance? : effizienz m1


Auch heute lassen sich bereits günstigere PC-basierte Systeme zusammenstellen, die selbst einen Mac Studio im Maximalausbau noch deutlich überflügeln. Doch bei solchen Aussagen kommt es stark auf das Anwendungsszenario an. Apple selbst hat in sehr speziell ausgewählten Benchmarks zum Vergleich eine RTX 3090 sowie einen AMD Threadripper herangezogen, der angeblich auf Augenhöhe agiert. Je nach Benchmark kamen diverse Internetmedien jedoch auch zu ganz anderen Ergebnissen. An einem Beispiel wollen wir kurz erklären, warum die Varianz der Tests so groß ausfällt:




Vorteil?: Unified Memory - Zero-Copy-Speicherzugriff

Als einer der größten Vorteile für die Videobearbeitung (und übrigens auch für Machine Learning) gilt der sogenannte Zero-Copy-Speicherzugriff der M1 Unified Memory Architektur zwischen CPU, GPU und anderen SOC-Komponenten. Hierbei übergibt beispielsweise die CPU der GPU statt der Daten nur einen sogenannten Zeiger auf die Daten. Da CPU und GPU Zugriff auf denselben Speicher haben, müssen diese Daten zur Weiterverarbeitung nicht mehr vom CPU-Speicher in den GPU-Speicher transferiert werden.



Wenn dieser Zero-Copy-Speicherzugriff im Code der Applikation genutzt wird (wofür in der Regel ein geänderter Code-Ablauf erforderlich ist), kann der M1 hiermit signifikante Performance-Steigerungen erzielen. Leider ist nicht einmal bekannt, ob schon Final Cut Pro diese Funktionen rege nutzt. Die großen Machine Learning Anwendungen könnten ebenfalls stark davon profitieren, nutzten diesen Vorteil aktuell jedenfalls noch nicht.



Ein echter Vergleich zwischen PC- und M1-Architektur kann deswegen niemals fair ausfallen, weil man keine identische Codebasis zum Vergleich heranziehen kann. Entweder ist der Code für ein hin- und herschieben von Speicherblöcken zwischen CPU und GPU am PC optimiert oder er macht explizit Gebrauch von dem Unified Memory Modell des Mac. Bei ersterem könnte die CPU noch parallel für andere Aufgaben genutzt werden, weil die GPU mit ihrem eigenen Speicher autark (z.B. die Effekt-Threads für die Videobearbeitung ab-) arbeiten kann.



Bei Unified Memory spart man sich zwar den eigentlichen Kopiervorgang, dafür können sich CPU und GPU bei RAM-Zugriffen behindern und die Bandbreite des Speichers muss sorgfältig(er) geteilt werden. Wer für beide Architekturen optimiert, hat am Ende sehr unterschiedlichen Code. Je nach Effekt-Algorithmus kann die eine oder andere Architektur von Vorteil sein.



Grob darf man wohl annehmen: Wenn mehrere Effekte verkettet werden und diese "in einem Rutsch" auf der GPU berechnet werden können, spielt der Aufwand des Kopiervorgangs nur eine untergeordnete Rolle. Unified Memory kann dagegen seine Vorteile vor allem dort ausspielen, wo viele Kopiervorgänge relativ unaufwändigen Berechnungen gegenüberstehen. In Resolve würden wir dies bei gestackten Nodes mit einfacher Farbkorrektur erwarten. Weil eben hier wenig Rechenaufwand bei häufiger Pixelschubserei von Node zu Node anfällt. Bei einer sehr rechenintensiven temporalen Noise Reduction sehen wir dagegen weniger Vorteile für Zero-Copy Speicherzugriffe. In praktischen Benchmarks spiegelt sich unsere Erwartung jedoch nicht unbedingt wieder, was viele Gründe haben kann, die wir ohne Einblick in den Code jedoch nicht erklären können. Doch dazu schreiben wir ein andermal noch einmal mehr.







TFlops als Anhaltspunkt

Ein ziemlich robustes Kriterium für die nackte Rechenleistung sind jedoch TFlops-Werte. Diese geben an, wie viele Standard Rechenoperationen eine GPU schaffen kann - sofern der Speicher den Algorithmus schnell genug zu füttern vermag. Wegen letzterer Voraussetzung ist die RAM-Geschwindigkeit für die Berechnung von aufwändigen Videoeffekten ebenfalls sehr wichtig: Kommen die Daten nicht schnell genug nach, nützen auch schnelle Recheneinheiten nichts.



Apple selbst sieht in einem selbst gewählten und darum sicherlich wohlwollenden Resolve GPU-Benchmark den M1 Max (10,4 TFLOPS) knapp vor einer AMD W5700X (9,4 TFLOPS). Als maximale Rechenleistung gibt Apple für die Ultra GPU 20,9 FP32-TFlops an, die in ca. 80 Prozent Leistungsvorsprung gegenüber den genannten 10 TFlops GPUs umgesetzt werden:



Mac Studio mit M1 Ultra - Volle Workstation-Performance? : Bench ultra


Eine RTX3090 schafft bei voller Auslastung jedoch fast die doppelte Rechenleistung (ca. 36 TFlops). Die in ein paar Tagen erwartete RTX 3090 Ti soll sogar runde 40 TFlops schaffen.



Apple gibt für den schnellsten M1 Ultra zudem eine RAM-Anbindung von ca. 800 GB/s an, wovon die GPU schätzungsweise maximal 660 GB/s direkt nutzen kann. Dagegen schaffen alle Desktop RTX3080/90-Modelle über 900 GB/s, die sie zudem nicht mit der CPU teilen müssen. Bei optimierter Programmierung auf beiden Seiten ist daher anzunehmen, dass ein System mit RTX3090 Ti Desktop-GPU im Durchschnitt bei aufwändigen Effekten sogar doppelt so schnell arbeiten könnte wie das größte Mac Studio Ultra. Allerdings müsste der Code dafür auch gut an die RTX 3090 angepasst worden sein.





Eigenheiten der Videobearbeitung

Doch genau dies ist nie hundertprozentig der Fall. Letztlich entscheidet darum die Implementierung in der Applikation mindestens ebenso über die Performance wie die nackten Hardware-Specs. So kann für den Videoschnitt viel entscheidender sein, wie gut und breit Hardware-Decoder im System unterstützt werden.



Bei den neuen Macs darf die Unterstützung vorbildlich genannt werden, am PC deckt die größte Bandbreite an Hardware-Decodern aktuell Intel ab. Ob dabei die für einen persönlich wichtigsten Codecs unterstützt werden, sollte unbedingt in die Wahl der eigenen Hardware-Software-Kombination einfließen.



Auch wird in naher Zukunft sicherlich die Unterstützung von KI-Beschleunigern eine weitaus größere Rolle spielen. Aktuell scheint für KI-Algorithmen eine Nvidia Karte mit Tensor Cores die beste Wahl. Die Leistung der integrierten KI-Einheiten in der M1 Architektur sind dagegen noch ein großes Fragezeichen. Wie effektiv diese bereits genutzt werden, ist noch größtenteils unbekannt.



Auf Apples Seite ist das am besten optimierte Videobearbeitungs-Programm definitiv Final Cut Pro, auf dem PC herrscht dagegen weitaus mehr Wildwuchs. Resolve konnte in der Vergangenheit sowohl Macs als auch Windows-Hardware meist sehr gut "ausfahren". Für systemübergreifende Vergleiche wird DaVinici Resolve mittlerweile von vielen Testern genutzt, da Blackmagic dieses Programm für diverse Plattformen ausgiebig optimiert. Im Einzelfall kam es jedoch in den letzten Versionen immer wieder zu deutlichen Veränderungen der Laufzeiten auf einzelnen Plattformen. So läuft in unseren Tests das Stacking von Farbkorrekturnodes am PC seit einiger Zeit deutlich langsamer, als in früheren Versionen.







Preis-Leistung

Erstklassige "Windows-CPUs" mit vergleichbarer ULTRA CPU-Performance (AMD Ryzen 9 5950X oder Intels Core i9-12900K) sind aktuell unter 600 Euro zu haben und Nvidias RTX 3090 Modell geht ebenfalls wieder deutlich unter 2.000 Euro über den Ladentisch. Rechnet man noch großzügig 1000 Euro für Speicher Netzteil, Gehäuse und Mainboard hinzu, so landet man bei 3500 Euro für eine Workstation, die ungefähr die doppelte Resolve-Performance eines voll ausgebauten Mac Ultra mit 64 GPU-Kernen liefern sollte.




Aussichten

Mehr als die Ultra Version des M1 dürfte Apple kaum über eine Interposer-Verbindung hinbekommen. Auf den aktuellen Dies ist zudem nur eine Kante mit Interposer-Anschlüssen bekannt, weshalb es höchst unwahrscheinlich ist, dass Apple diesen Weg für eine weitere Leistungsverdoppelung beschreiten kann. Der große Mac Pro mit Apple Silicon wird darum sehr wahrscheinlich mit einer Art Dual- oder Quad-Processing Technik arbeiten. Also zwei oder vier Ultra-Prozessoren, die über einen Bus kommunizieren. Dies könnte für das Betriebssystem aus dem eigenen Hause immer noch wie ein einziger Prozessor dargestellt werden, jedoch dürften hierbei die Skalierungsverluste größer ausfallen als bei der jetzigen Interposer-Lösung des Ultra Chips.



Die Skalierung über Interposer wird beim M1 schwer weiter skalierbar sein.
Die Skalierung über Interposer wird beim M1 schwer weiter skalierbar sein.


Nvidia wird dagegen die RTX 4090 noch dieses Jahr vorstellen und es ist zu erwarten, dass diese bei der Rechenleistung nochmal stark zulegen wird. Der Stromverbrauch wird sich nach ersten Gerüchten beim Topmodell fast verdoppeln, und das war in der Vergangenheit bei Nividia meist auch mit einer Verdoppelung der Leistungsfähigkeit einhergegangen. Die Gerüchteküche erwartet, dass das Topmodell RTX 4090 um die 80 TFlops (FP32) leisten wird. Um diese Leistung auf Basis des M1 zu erzielen, müsste Apple den Ultra Prozessor noch einmal "vervierfachen" (und das bei hunderprozentig skalierbarer Leistung). So sind zwar vier "Sockel" für einen MacPro denkbar, jedoch dürfte dies nach Apples Preisgestaltung dann auch einen Rechnerpreis von 20.000 Dollar im performantesten Ausbau bedeuten.



Die RTX4090 dürfte dagegen nach bisheriger Nvidia Preisgestaltung kaum über 2500 Dollar UVP kosten. Hiermit sollte sich im späten Herbst dann eine extreme Workstation unter 5000 Euro verwirklichen lassen, die (gepaart mit Intels und AMDs kommender DDR5-CPU-Generation) Apples Studio Varianten allesamt alt aussehen lassen wird. Allerdings auch bei einem Stromverbrauch von fast einem Kilowatt! Vier Mac Ultra Kerne sollten dagegen auch bei voller Auslastung noch um die 600W agieren.





Fazit

Der Mac Ultra bietet sicherlich die Leistung einer Workstation, agiert aber in den meisten Anwendungen sicherlich nicht auf dem Niveau eines Thread Rippers mit einer RTX 3090. Im Videoschnittbereich dürfte die Performance jedoch für die meisten Anwendungsfälle mehr als locker ausreichen, zumal aufgrund des üppigen Hardware-Codec-Ausbaus ein flüssiger Multitrack-Schnitt in zahlreichen relevanten Formaten möglich ist. Ob die eingebauten KI-Kerne in der Zukunft noch für performante KI-Effekte sorgen können, kann man dagegen heute noch nicht absehen. Es ist jedoch zu vermuten, dass das Feld der Künstlichen Intelligenz von Apple als ziemlich relevant eingestuft und entsprechend unterstützt wird.



Geht es um die reine Rechenleistung kommt man unter Windows nach wie vor weitaus günstiger weg - allerdings auch klobiger und lauter. Das war eigentlich schon immer so, nur dass momentan zudem der Stromverbrauch im Vergleich signifikant höher ausfällt.



Mac Studio mit M1 Ultra - Volle Workstation-Performance? : Header m1 ultra


Ähnliche Artikel //
Umfrage
    Meine nächste Kamera wird eine










    Ergebnis ansehen

slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash