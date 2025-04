Super Micro Computer, Inc.

Die ersten auf dem Markt erhältlichen Supermicro NVIDIA HGX™ B200-Systeme der Branche demonstrieren KI-Leistungsführerschaft bei MLPerf® Inference v5.0-Ergebnissen

San Jose, Kalifornien (ots/PRNewswire)

Neueste Benchmarks zeigen, dass Supermicro-Systeme mit dem NVIDIA B200 die vorherige Generation von Systemen mit der 3-fachen Token-Generierung pro Sekunde übertreffen

Super Micro Computer, Inc. (SMCI), ein Anbieter von Komplettlösungen für KI/ML, HPC, Cloud, Speicher und 5G/Edge, kündigt die branchenführende Leistung bei mehreren MLPerf Inference v5.0-Benchmarks an, die mit dem NVIDIA HGX™ B200 8-GPU erzielt wurde. Die flüssigkeitsgekühlten 4U- und die luftgekühlten 10U-Systeme erzielten in ausgewählten Benchmarks die beste Leistung. Supermicro hat bei den Benchmarks Llama2-70B und Llama3.1-405B im Vergleich zu H200 8-GPU-Systemen mehr als dreimal so viele Token pro Sekunde (Token/s) generiert.

„Supermicro ist nach wie vor führend in der KI-Branche, wie die ersten neuen Benchmarks von MLCommons aus dem Jahr 2025 belegen", sagte Charles Liang, President und CEO von Supermicro. „Unsere Bausteinarchitektur ermöglicht es uns, als Erste auf dem Markt mit einer Vielzahl von Systemen zu sein, die für verschiedene Arbeitslasten optimiert sind. Wir arbeiten weiterhin eng mit NVIDIA zusammen, um unsere Systeme zu optimieren und eine Führungsposition bei KI-Workloads zu sichern."

Erfahren Sie mehr über die neuen MLPerf v5.0 Inference Benchmarks: https://mlcommons.org/benchmarks/inference-datacenter/

Supermicro ist der einzige Systemanbieter, der die MLPerf-Inferenzleistung (bei ausgewählten Benchmarks) sowohl für die luftgekühlten als auch für die flüssigkeitsgekühlten NVIDIA HGX™ B200 8-GPU-Systeme veröffentlicht. Sowohl die luft- als auch die flüssigkeitsgekühlten Systeme waren vor dem Start des MLCommons-Benchmarks in Betrieb. Die Ingenieure von Supermicro optimierten die Systeme und die Software, um die beeindruckende Leistung zu präsentieren. Innerhalb der Betriebsspanne zeigte das luftgekühlte Supermicro B200-System das gleiche Leistungsniveau wie das flüssigkeitsgekühlte B200-System. Supermicro hat diese Systeme bereits an Kunden ausgeliefert, während wir die Benchmarks durchgeführt haben.

MLCommons legt Wert darauf, dass alle Ergebnisse reproduzierbar sind, dass die Produkte verfügbar sind und dass die Ergebnisse von anderen MLCommons-Mitgliedern überprüft werden können. Supermicro-Ingenieure optimierten die Systeme und die Software, wie es die MLCommons-Regeln erlauben.

Die Systeme SYS-421GE-NBRT-LCC (8x NVIDIA B200-SXM-180GB) und SYS-A21GE-NBRT (8x NVIDIA B200-SXM-180GB) zeigten mit 129.000 Token/Sekunde eine überlegene Leistung bei der Ausführung der Mixtral 8x7B Inference, Mixture of Experts-Benchmarks. Das luft- und flüssiggekühlte, auf NVIDIA B200 basierende Supermicro-System lieferte für das große Modell Llama3.1-405b eine Inferenz von über 1.000 Token/Sekunde, während die vorherigen Generationen von GPU-Systemen viel geringere Ergebnisse lieferten. Bei kleineren Inferenzaufgaben, die mit der LLAMA2-70b-Benchmark durchgeführt wurden, zeigte ein Supermicro-System mit installiertem NVIDIA B200 SXM-180GB die höchste Leistung aller Tier-1-Systemanbieter.

Im Einzelnen:

Stabile Diffusion XL (Server) SYS-A21GE-NBRT (8x B200-SXM-180GB) #1 Abfragen/s, 28,92

llama2-70b-interactive-99 (Server) SYS-A21GE-NBRT (8x B200-SXM-180GB) #1 Token/s, 62.265,70

Llama3.1-405b (offline) SYS-421GE-NBRT-LCC (8xB200-SXM-180GB) #1 Token/s 1.521,74

Llama3.1-405b (Server) SYS-A21GE-NBRT (8x B200-SXNM-180GB) #1 Tokens/s, 1.080.31 (für einen 8-GPU-Knoten)

mixtral-8x7b (Server) SYS-421GE-NBRT-LCC (8x B200-SXM-180GB) #1 Token/s, 129.047,00

mixtral-8x7b (Offline) SYS-421GE-NBRT-LCC (8x B200-SXM-180GB) #1 Token/s, 128.795,00

„MLCommons gratuliert Supermicro zu ihrer Teilnahme am MLPerf Inference v5.0-Benchmark. Wir freuen uns, dass ihre Ergebnisse im Vergleich zu früheren Systemgenerationen erhebliche Leistungssteigerungen aufweisen", sagte David Kanter, Head of MLPerf bei MLCommons. „Die Kunden werden von den erzielten Leistungsverbesserungen begeistert sein, die durch die neutralen, repräsentativen und reproduzierbaren MLPerf-Ergebnisse bestätigt werden."

Supermicro bietet ein umfassendes KI-Portfolio mit über 100 GPU-optimierten Systemen, sowohl luftgekühlte als auch flüssigkeitsgekühlte Optionen, mit einer Auswahl an CPUs, die von Single-Socket-optimierten Systemen bis hin zu 8-Wege-Multiprozessorsystemen reichen. Supermicro-Rack-Scale-Systeme umfassen Computer-, Speicher- und Netzwerkkomponenten, die die Installationszeit nach der Lieferung an den Kundenstandort verkürzen.

Die NVIDIA HGX B200 8-GPU-Systeme von Supermicro nutzen die nächste Generation der Flüssigkeits- und Luftkühlungstechnologie. Die neu entwickelten Kühlplatten und die neue 250-kW-Kühlmittelverteilungseinheit (CDU) bieten mehr als die doppelte Kühlleistung der vorherigen Generation im gleichen 4U-Formfaktor. Das Rack-Scale-Design mit den neuen vertikalen Kühlmittelverteilern (CDM) ist in den Konfigurationen 42U, 48U oder 52U erhältlich und belegt keine wertvollen Rack-Einheiten mehr. Dies ermöglicht acht Systeme mit 64 NVIDIA Blackwell-Grafikprozessoren in einem 42U-Rack und bis zu 12 Systeme mit 96 NVIDIA Blackwell-Grafikprozessoren in einem 52U-Rack.

Das neue luftgekühlte 10U NVIDIA HGX B200 System verfügt über ein neu gestaltetes Gehäuse mit erweitertem thermischen Headroom, in dem acht 1000W TDP Blackwell GPUs Platz finden. Bis zu vier der neuen luftgekühlten 10-HE-Systeme können in einem Rack installiert und vollständig integriert werden. Dies entspricht der gleichen Dichte wie bei der vorherigen Generation und bietet gleichzeitig eine bis zu 15-fache Inferenz- und 3-fache Trainingsleistung.

