Zürcher Nachrichten - Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

EUR -
AED 4.179607
AFN 72.258895
ALL 94.205288
AMD 419.32538
ANG 2.037333
AOA 1043.471931
ARS 1673.878652
AUD 1.646164
AWG 2.049676
AZN 1.931828
BAM 1.955918
BBD 2.296329
BDT 140.068478
BGN 1.924085
BHD 0.43002
BIF 3405.606125
BMD 1.137919
BND 1.476989
BOB 7.895478
BRL 5.920364
BSD 1.140164
BTN 107.948534
BWP 15.503938
BYN 3.202194
BYR 22303.209908
BZD 2.293039
CAD 1.616971
CDF 2577.385877
CHF 0.922079
CLF 0.026365
CLP 1037.657169
CNY 7.709175
CNH 7.735322
COP 3899.04488
CRC 517.224487
CUC 1.137919
CUP 30.15485
CVE 110.271674
CZK 24.228625
DJF 202.230987
DKK 7.475001
DOP 66.733159
DZD 152.068092
EGP 56.580855
ERN 17.068783
ETB 183.814318
FJD 2.561791
FKP 0.85899
GBP 0.86289
GEL 3.009787
GGP 0.85899
GHS 12.797775
GIP 0.85899
GMD 83.067764
GNF 9990.121794
GTQ 8.698526
GYD 238.534437
HKD 8.922706
HNL 30.504712
HRK 7.534161
HTG 149.069022
HUF 355.706046
IDR 20399.24405
ILS 3.40957
IMP 0.85899
INR 107.8111
IQD 1493.5904
IRR 1564638.450732
ISK 144.003725
JEP 0.85899
JMD 179.470074
JOD 0.806818
JPY 183.853426
KES 147.258242
KGS 99.511194
KHR 4575.854724
KMF 490.443242
KPW 1024.127384
KRW 1745.914618
KWD 0.351594
KYD 0.950158
KZT 554.603568
LAK 25248.528174
LBP 102099.879625
LKR 381.463088
LRD 207.502559
LSL 18.801338
LTL 3.359979
LVL 0.688316
LYD 7.316411
MAD 10.671146
MDL 20.072215
MGA 4763.288299
MKD 61.63521
MMK 2388.932514
MNT 4072.611663
MOP 9.207457
MRU 45.285348
MUR 54.57472
MVR 17.592561
MWK 1977.010972
MXN 20.012811
MYR 4.711558
MZN 72.710706
NAD 18.801338
NGN 1558.857449
NIO 41.952539
NOK 11.148254
NPR 172.716695
NZD 2.008275
OMR 0.437534
PAB 1.140169
PEN 3.859434
PGK 5.000325
PHP 69.924546
PKR 317.102593
PLN 4.285607
PYG 6950.390134
QAR 4.156252
RON 5.247057
RSD 117.351293
RUB 84.774961
RWF 1671.993851
SAR 4.273217
SBD 9.177362
SCR 15.231046
SDG 683.318583
SEK 11.088575
SGD 1.476194
SHP 0.849571
SLE 28.163574
SLL 23861.593974
SOS 651.636577
SRD 42.652585
STD 23552.623219
STN 24.500299
SVC 9.976604
SYP 125.77656
SZL 18.795138
THB 37.854581
TJS 10.57484
TMT 3.994095
TND 3.374904
TOP 2.739836
TRY 52.886538
TTD 7.741469
TWD 36.036527
TZS 2987.455785
UAH 51.179898
UGX 4173.252587
USD 1.137919
UYU 45.732768
UZS 13698.829126
VES 701.942638
VND 29955.714328
VUV 135.137568
WST 3.136474
XAF 655.993822
XAG 0.018439
XAU 0.000276
XCD 3.075283
XCG 2.054824
XDR 0.815849
XOF 655.993822
XPF 119.331742
YER 271.564061
ZAR 18.840509
ZMK 10242.636979
ZMW 20.453238
ZWL 366.409413
  • SDAX

    -238.4700

    18157

    -1.31%

  • TecDAX

    -67.0900

    3903.86

    -1.72%

  • Euro STOXX 50

    -80.7700

    6230.55

    -1.3%

  • Goldpreis

    -61.2000

    4141.5

    -1.48%

  • DAX

    -246.1100

    24893.58

    -0.99%

  • MDAX

    -445.3600

    32129.1

    -1.39%

  • EUR/USD

    -0.0048

    1.1383

    -0.42%

Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden
Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

Clockwork.io führt eine neue Klasse der Fehlertoleranz ein, um die durch Ausfälle verursachte Verschwendung von GPU-Leistung beim KI-Training zu beenden

Die neue TorchPass-Lösung bewältigt eine millionenschwere Herausforderung im Bereich der KI-Infrastruktur und nutzt Live-GPU-Migration, um groß angelegte KI-Trainings trotz Hardwareausfällen fortzusetzen, anstatt kostspielige Neustarts zu erzwingen

Textgröße:

PALO ALTO, Kalifornien / ACCESS Newswire / 10. März 2026 / Clockwork.io, der Marktführer im Bereich Software-Driven AI Fabrics - einer programmierbaren, herstellerneutralen Software-Layer, die groß angelegte GPU-Cluster für Echtzeit-Beobachtbarkeit, Fehlertoleranz und deterministische Leistung optimiert - gab heute die allgemeine Verfügbarkeit von TorchPass Workload Fault Tolerance bekannt. Diese neue Klasse softwaregesteuerter Fehlertoleranz beseitigt einen der kostspieligsten Ausfallmodi beim groß angelegten KI-Training: katastrophale Job-Neustarts aufgrund von Infrastrukturfehlern.

TorchPass wird als Kernfunktion der Clockwork.io FleetIQ-Plattform bereitgestellt und wendet die Prinzipien Software-Driven AI Fabrics auf verteiltes Training an. Dabei nutzt es Live-GPU-Migration, um Workloads auch bei GPU-Ausfällen, Netzwerkstörungen, Treiberfehlern und sogar vollständigen Node-Abstürzen weiterlaufen zu lassen - ohne Neustarts an Checkpoints oder Verlust des Fortschritts.

„Unternehmen investieren Milliarden in Chips der nächsten Generation, doch die Kosten für die Ausführung verteilter KI-Jobs sind nach wie vor extrem hoch, da das Ökosystem Ausfälle als unvermeidbar akzeptiert hat", so Suresh Vasudevan, CEO von Clockwork.io. „Wir haben TorchPass entwickelt, um diese Prämisse grundlegend zu widerlegen. Anstatt Ausfälle als unvermeidbar zu betrachten und nachträglich neu zu starten, macht TorchPass Infrastrukturfehler für die Workload unsichtbar - das Training wird trotz Ausfällen transparent in der Software fortgesetzt. Bei einer typischen Bereitstellung mit 2.048 GPUs bedeutet dies eine Einsparung von über 6 Millionen $ pro Jahr an Rechenleistung. Genau dafür wurde unser softwaregesteuerter KI-Fabric-Ansatz entwickelt: eine fehlertolerante KI-Infrastruktur."

Dylan Patel, Gründer und CEO von SemiAnalysis, stimmte zu, dass groß angelegte Trainingsaufgaben durch Unterbrechungen eingeschränkt werden.

„Da Blackwell-Cluster mit einer NVL72-Domäne eingeführt werden und wir mit der NVL576-Domäne von Rubin Ultra in die Zukunft blicken, ist die Vorstellung, dass ein einziger GPU-Fehler oder eine Netzwerkverbindung einen gesamten Lauf zum Erliegen bringen kann, völlig inakzeptabel", so Patel. „TorchPass löst eine große Herausforderung hinsichtlich der Zuverlässigkeit von Clustern: Es bietet transparentes Failover und Live-Workload-Migration, wodurch die MFU hoch bleibt, was wiederum zu einer besseren GPU-Wirtschaftlichkeit führt."

Warum KI-Training in großem Maßstab scheitert

Verteiltes KI-Training ist nach wie vor eine der fehleranfälligsten Workloads in modernen Infrastrukturen. Mit zunehmender Clustergröße steigt die Anfälligkeit stark an. Untersuchungen von Meta FAIR zeigen, dass die mittlere Zeit bis zum Ausfall in einem Cluster mit 1.024 GPUs auf 7,9 Stunden und bei 16.384 GPUs auf nur 1,8 Stunden sinkt. Das bedeutet, dass für die meisten großen, auf KI fokussierten Unternehmen oder KI-Clouds ausfallbedingte Neustarts völlig unvermeidlich sind - was ein großes Hindernis für die Skalierung der Auswirkungen von KI darstellt.

Jeder Ausfall zwingt Trainingsjobs dazu, zum letzten Checkpoint zurückzukehren, wodurch Minuten oder Stunden bereits geleisteter Arbeit verloren gehen und zusätzliche Zeit für manuelle Eingriffe, die Neuzuweisung von Ressourcen und den Neustart des Trainings verschwendet wird. Diese Neustarts begrenzen stillschweigend die GPU-Auslastung, wodurch die Zuverlässigkeit zu einem der größten versteckten Kostenfaktoren in der KI-Infrastruktur wird.

TorchPass behebt dieses Problem, indem es kostspielige Ausfälle von KI-Workloads proaktiv angeht und sie löst, bevor der Job gestoppt wird oder neu gestartet werden muss. TorchPass ist für Unternehmen, die große KI-Workloads und KI-Clouds betreiben, von entscheidender Bedeutung und verbessert die Zuverlässigkeit von Workloads und die Clusterauslastung erheblich. Für KI-Clouds, die nun betroffene GPUs beheben können, während der Trainingslauf wie geplant fortgesetzt wird, bedeutet dies bessere Kunden-SLAs und eine insgesamt bessere Wirtschaftlichkeit der KI-Cloud, wodurch sie ihre Margen besser schützen und neue Modelle schneller bereitstellen können.

„Die Steuerung der Rechenleistung/-kapazität in großen GPU-Clustern ist entscheidend, um sicherzustellen, dass wir unseren Kunden zuverlässige Kapazitäten bieten können. Mit TorchPass haben wir die Unterstützung eines Unternehmens, das sich auf Ausfallsicherheit als Kernfunktion konzentriert: Es ersetzt jede einzelne ausgefallene GPU und sorgt dafür, dass der Rest des Jobs weiterläuft, anstatt dass ein kleines Problem Auswirkungen auf unseren gesamten Betrieb hat", so David Power, CTO von Nscale. „Bei unserer Bewertung hat Live GPU Migration sowohl die Laufkontinuität als auch den Durchsatz unter realen Fehlerbedingungen aufrechterhalten, was genau das ist, was man braucht, um eine vorhersehbare Trainingszeit und ein besseres Kundenerlebnis in großem Maßstab zu erzielen."

So funktioniert Live GPU Migration: Zuverlässigkeit ohne Neustart

TorchPass führt bei Ausfällen eine transparente Migration der betroffenen Trainingsprozesse zu freien Ressourcen durch. TorchPass schließt die Wiederherstellung in der Regel in etwa drei Minuten ab, während der Trainingsprozess ohne Unterbrechung fortgesetzt wird.

Es unterstützt die Ausfallsicherheit in drei Ausfallszenarien:

  • Ungeplante Migration, die plötzliche Ereignisse wie Kernel-Abstürze, Stromausfälle oder GPU-Fehler durch die Rekonstruktion des Zustands aus fehlerfreien Replikaten behandelt

  • Präventive Migration, ausgelöst durch Frühwarnsignale wie steigende Temperaturen oder ECC-Speicherfehler, ermöglicht eine kontrollierte Migration vor einem schwerwiegenden Ausfall

  • Geplante Migration, die Wartungsarbeiten, Patches und die Neuverteilung der Arbeitslast ohne Unterbrechung des Trainings ermöglicht

Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 95 % und verkürzt die Ausfallzeit von etwa drei Stunden pro Tag auf weniger als zehn Minuten in einem Cluster mit 1.024 GPUs.

Jordan Nanos, Mitglied des technischen Stabs und Hauptautor des unabhängigen Benchmarks von ClusterMAX-SemiAnalysis für groß angelegtes KI-Training, hat Clockwork.io TorchPass einem Stresstest unterzogen und festgestellt, dass es bei groß angelegten verteilten Trainings eine hervorragende Leistung und Effizienz bietet, wodurch Benutzer den Checkpointing-Overhead beim Training reduzieren können. Er teilte die folgenden Ergebnisse mit:

„In unseren Tests lieferte Clockwork.io TorchPass die schnellste und effizienteste fehlertolerante Leistung für einen gpt-oss-120B-Trainingslauf. Wir haben TorchTitan auf einem Kubernetes-Cluster mit 64x H200-GPUs verwendet. Während unserer Tests haben wir die Job-Abschlusszeit (JCT) und die Modell-FLOPs-Auslastung (MFU) im Vergleich zu einem Standardansatz (Checkpoint-Neustart) und dem führenden Open-Source-Fehlertoleranz-Trainingsframework (TorchFT) gemessen. Wir haben mehrere Hardwareausfälle auf dem Cluster simuliert, um die fehlertoleranten Trainingsframeworks einem Stresstest zu unterziehen.

Im Vergleich zu Checkpoint-Restart war TorchPass bei der Wiederherstellung nach Ausfällen deutlich schneller. Dies reduzierte die Gesamt-JCT und sorgte für eine hohe MFU. Im Vergleich zu TorchFT hatte TorchPass eine deutlich höhere MFU. Dies reduzierte die Gesamt-JCT und sorgte gleichzeitig für eine gleichbleibende Zeit zur Wiederherstellung nach Ausfällen.

Die Verwendung von TorchPass hat auch einen Downstream-Effekt, da es Benutzern die Möglichkeit bietet, Checkpoints in ihrem Trainingscode zu reduzieren oder sogar ganz zu entfernen. Dies bedeutet größere effektive Batch-Größen, ein geringeres Risiko für Speicherfehler (OOMs) und weniger Zeitaufwand für Überlegungen zum Speicherplatz. Für eine Forschungsorganisation kann dies letztendlich eine schnellere Erreichung ihrer Trainingsziele bedeuten", schloss Nanos.

Messbare geschäftliche Auswirkungen durch softwaregesteuerte Fehlertoleranz

Für Kunden, die große KI-Cluster betreiben, sind die Auswirkungen unmittelbar und messbar. In einer typischen H200-Bereitstellung mit 2.048 GPUs sorgt TorchPass Workload Fault Tolerance durch die Vermeidung von Rechenleistungsverschwendung für jährliche Einsparungen von über 6 Millionen US-Dollar.

Diese Einsparungen resultieren aus der Eliminierung von Hunderttausenden von GPU-Stunden, die sonst durch fehlerbedingte Neustarts, kaskadierende Wiederholungsversuche und Leerlaufzeiten verloren gehen würden. Indem TorchPass Trainingsjobs trotz Infrastrukturfehlern weiterlaufen lässt, anstatt sie neu zu starten, wandelt es verlorene GPU-Zeit in produktives Training um und verbessert so erheblich die Rendite von GPU-Investitionen, die heute oft nur 30 bis 50 % der theoretischen Leistung erreichen.

Die nächste Generation der KI-Infrastruktur ermöglichen

Indem TorchPass Zuverlässigkeit zu einer softwaredefinierten Funktion statt zu einer Hardwarebeschränkung macht, bietet es die erforderliche Betriebssicherheit für den Einsatz eng gekoppelter Systeme der nächsten Generation wie NVIDIA GB200 und GB300 NVL72 sowie zukünftiger Rack-Scale-Systeme, bei denen dichte Architekturen selbst die Kosten kleinerer Ausfälle vervielfachen.

TorchPass baut auf der früheren Version von Network Fault Tolerance von Clockwork.io auf, die dieselben Prinzipien der softwaregesteuerten KI-Struktur auf die Netzwerkausfallsicherheit anwendet, indem sie den Datenverkehr bei Verbindungsausfällen transparent umleitet.

Zusammen bilden diese Funktionen die Software-Driven AI Fabric von Clockwork.io, eine herstellerneutrale Software-Layer, die Netzwerk, Rechenleistung und Speicher umfasst. Da moderne KI-Workloads auf eng gekoppelten Clustern laufen, auf denen Hunderte oder Tausende von Prozessoren koordiniert im Gleichschritt arbeiten müssen, verhält sich die Infrastruktur wie ein einziges System, in dem Zuverlässigkeit und Leistung direkt die Gesamteffizienz bestimmen. Durch die Verwaltung dieser Komplexität in der Software ermöglicht Clockwork.io den Betreibern, heterogene KI-Infrastrukturen als einheitliche Plattform zu betreiben und dabei eine hohe Auslastung, vorhersehbare Leistung und Ausfallsicherheit zu gewährleisten, während die Flexibilität zur Weiterentwicklung der Hardware und zur Verbesserung der Wirtschaftlichkeit groß angelegter KI-Implementierungen erhalten bleibt.

Um mehr über die Einführung von TorchPass zu erfahren, besuchen Sie das Clockwork.io-Team persönlich auf der NVIDIA GTC vom 16. bis 19. März am Stand Nr. 205 oder besuchen Sie https://clockwork.io.

Über Clockwork.io

Clockwork.io ist ein Pionier im Bereich Software-Driven AI Fabrics™ und bietet eine programmierbare Software-Layer, die große KI-Cluster beobachtbar, deterministisch und von Grund auf widerstandsfähig macht, um einen kontinuierlichen Workload-Fortschritt und eine maximale Cluster-Auslastung zu erzielen. Mit der FleetIQ-Plattform können Unternehmen die anspruchsvollsten KI-Workloads der Welt schneller, zuverlässiger und kostengünstiger trainieren, bereitstellen und bedienen. Unternehmen wie Uber, Wells Fargo, DCAI, Nebius, Nscale und White Fiber vertrauen auf Clockwork.io, um ihre KI-Infrastruktur zu betreiben. Weitere Informationen finden Sie unter www.clockwork.io.

Medienkontakt

Dana Trismen
[email protected]
650-269-7478

QUELLE: Clockwork

Ch.Siegenthaler--NZN