Zürcher Nachrichten - Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

EUR -
AED 4.183048
AFN 72.314042
ALL 93.898303
AMD 419.153057
ANG 2.038998
AOA 1044.89568
ARS 1690.672427
AUD 1.651032
AWG 2.049928
AZN 1.936081
BAM 1.954785
BBD 2.294468
BDT 140.354657
BGN 1.925657
BHD 0.429413
BIF 3388.074763
BMD 1.138849
BND 1.476807
BOB 7.900759
BRL 5.945252
BSD 1.139188
BTN 108.572718
BWP 16.26327
BYN 3.318918
BYR 22321.433736
BZD 2.29117
CAD 1.618002
CDF 2579.49217
CHF 0.921021
CLF 0.02679
CLP 1054.369086
CNY 7.737281
CNH 7.738112
COP 3904.759012
CRC 518.521655
CUC 1.138849
CUP 30.179489
CVE 110.325979
CZK 24.236636
DJF 202.861103
DKK 7.474566
DOP 68.100581
DZD 151.843155
EGP 55.917926
ERN 17.08273
ETB 181.020431
FJD 2.556938
FKP 0.859051
GBP 0.858179
GEL 3.006554
GGP 0.859051
GHS 12.942983
GIP 0.859051
GMD 83.701678
GNF 9990.551529
GTQ 8.688336
GYD 238.302078
HKD 8.932844
HNL 30.429885
HRK 7.532575
HTG 148.950043
HUF 354.818526
IDR 20438.916901
ILS 3.400037
IMP 0.859051
INR 108.238169
IQD 1492.461169
IRR 1567055.755971
ISK 143.791239
JEP 0.859051
JMD 179.156974
JOD 0.807496
JPY 184.995771
KES 147.42431
KGS 99.592135
KHR 4566.782743
KMF 491.982899
KPW 1024.964193
KRW 1767.23083
KWD 0.352701
KYD 0.94939
KZT 546.006901
LAK 25624.094601
LBP 101983.897292
LKR 382.694568
LRD 207.612203
LSL 18.700172
LTL 3.362724
LVL 0.688878
LYD 7.300234
MAD 10.688123
MDL 20.147185
MGA 4862.883342
MKD 61.638162
MMK 2391.139854
MNT 4080.476394
MOP 9.204059
MRU 45.724815
MUR 53.751653
MVR 17.606532
MWK 1978.180039
MXN 19.972883
MYR 4.662561
MZN 72.71585
NAD 18.699794
NGN 1570.460673
NIO 41.704567
NOK 11.295781
NPR 173.716748
NZD 2.007261
OMR 0.437903
PAB 1.139188
PEN 3.886892
PGK 4.98589
PHP 70.159341
PKR 316.656978
PLN 4.29043
PYG 6924.283008
QAR 4.151678
RON 5.23005
RSD 117.337286
RUB 88.553635
RWF 1668.413287
SAR 4.272278
SBD 9.184861
SCR 15.319799
SDG 683.868824
SEK 11.081677
SGD 1.475521
SHP 0.850266
SLE 28.24243
SLL 23881.091149
SOS 650.862356
SRD 42.711946
STD 23571.867935
STN 24.883843
SVC 9.967649
SYP 125.879331
SZL 18.688698
THB 37.952699
TJS 10.537743
TMT 3.997359
TND 3.355333
TOP 2.742075
TRY 53.146539
TTD 7.733848
TWD 36.269712
TZS 2989.48117
UAH 51.070061
UGX 4174.758967
USD 1.138849
UYU 45.795417
UZS 13723.125953
VES 708.641199
VND 29952.289182
VUV 136.773869
WST 3.167006
XAF 655.605068
XAG 0.018926
XAU 0.000279
XCD 3.077795
XCG 2.053098
XDR 0.814298
XOF 653.130407
XPF 119.331742
YER 271.733346
ZAR 18.667214
ZMK 10250.993881
ZMW 20.739867
ZWL 366.708804
  • SDAX

    150.0100

    18195.59

    +0.82%

  • TecDAX

    36.0900

    3889.17

    +0.93%

  • Goldpreis

    46.5000

    4085

    +1.14%

  • DAX

    44.4700

    25040.28

    +0.18%

  • MDAX

    247.5400

    32056.64

    +0.77%

  • Euro STOXX 50

    -45.5900

    6282.5

    -0.73%

  • EUR/USD

    -0.0039

    1.1387

    -0.34%

Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein
Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

„You Only Compute Once" (YOCO) garantiert, 90 % der Fehler beim KI-Training ohne Verlust des Fortschritts zu beheben - andernfalls erhalten Kunden eine Gutschrift

Textgröße:

PALO ALTO, Kalifornien / ACCESS Newswire / 1. Juli 2026 / Clockwork.io, Pionier im Bereich Software-Driven AI Fabrics und Entwickler der TorchPass-KI-Fehlertoleranz, hat heute die YOCO Guarantee vorgestellt - die branchenweit erste vertragliche Verpflichtung, die versteckten, sich summierenden Kosten von Trainingsfehlern in groß angelegten KI-Infrastrukturen drastisch zu senken. Die Ankündigung markiert einen Wendepunkt in der Art und Weise, wie die KI-Branche die Zuverlässigkeit von Infrastrukturen misst - weg von Verfügbarkeitskennzahlen, die für eine frühere Ära konzipiert waren, hin zu den Zielen, die KI-Teams am meisten schätzen: ob der Trainingsjob pünktlich und ohne Datenverlust abgeschlossen wird.

Im Rahmen der YOCO (You Only Compute Once) Guarantee verpflichtet sich Clockwork.io, dass mindestens 90 % der Trainingsausfälle bei unterstützten TorchPass-Workloads durch eine Live-GPU-Migration behoben werden - ohne Verlust des Trainingsfortschritts, ohne Rollback auf einen Checkpoint und ohne erneute Berechnung. Sollte Clockwork.io diese Verpflichtung in einem Vertragsjahr nicht erfüllen, erhalten Kunden eine Gutschrift in Höhe von 25 % auf ihre nächste TorchPass-Verlängerung oder -Erweiterung.

„Wir haben TorchPass entwickelt, um Trainingsfehler irrelevant zu machen", sagte Suresh Vasudevan, CEO von Clockwork.io. „Die YOCO Guarantee ist eine Klausel im Vertrag. Wir gehen ins Risiko, weil wir wissen, dass TorchPass hält, was es verspricht, und wir möchten, dass unsere Kunden das auch wissen."

Die versteckte Steuer auf den KI-Fortschritt

Jedes KI-Unternehmen, das in großem Maßstab trainiert, sieht sich mit derselben brutalen Realität konfrontiert: GPU-Cluster fallen ständig aus, und jeder Ausfall löst einen kostspieligen Neustartzyklus aus. Laut einer von Meta FAIR auf der HPCA 2025 veröffentlichten Studie beträgt die mittlere Zeit bis zum Ausfall bei einem Cluster mit 1.024 GPUs nur 7,9 Stunden - und bei 16.384 GPUs sinkt dieser Wert auf 1,8 Stunden. Jeder Ausfall zwingt die Teams dazu, Ersatzknoten bereitzustellen, den Zustand des letzten Checkpoints wiederherzustellen und jeden Trainingsschritt seit diesem Checkpoint neu zu berechnen. Diese Neuberechnung kostet den vollen Preis der GPUs - Rechenleistung, für die Sie bereits bezahlt haben, wird von Grund auf neu ausgeführt. Der Zyklus kostet typischerweise drei oder mehr Stunden Fortschritt pro Ausfallereignis, wobei sich die Verluste täglich summieren.

Die Folge ist, dass aktuelle GPU-Cluster effektiv nur mit 30-50 % ihrer theoretischen Leistung arbeiten - nicht, weil die Hardware langsam ist, sondern weil das sie steuernde Zuverlässigkeitsframework nie für Workloads dieser Art, Dauer oder Größenordnung konzipiert wurde.

„KI-Teams brauchen fertige Modelle, nicht Knoten, die in Betrieb sind. Die Branche hat bisher die Betriebszeit der Knoten gemessen und dies als Zuverlässigkeit bezeichnet. YOCO macht uns für das einzig Wichtige verantwortlich - Ihr fertiges Modell", sagte Vasudevan.

Die finanziellen Folgen sind gravierend. In einer typischen H200-Bereitstellung mit 2.048 GPUs verursachen ausfallbedingte Neustarts jährlich über 6 Millionen Dollar an verschwendeter Rechenleistung - Hunderttausende von GPU-Stunden gehen durch kaskadierende Wiederholungsversuche, Leerlaufzeiten bei der Wiederherstellung und neu berechnete Trainingsschritte verloren. Für KI-Entwickler ist die eigentliche Werteinheit nicht die GPU-Verfügbarkeit, sondern die Zeit bis zum trainierten Modell - doch der Vertrag für die Infrastruktur, den sie abschließen, garantiert die Verfügbarkeit der Knoten, nicht die Kontinuität der Jobs. Für KI-Betreiber ist diese Lücke ebenso kostspielig: Wenn der Trainingsjob eines Kunden fehlschlägt, neu gestartet wird und Tage an Fortschritt verloren gehen, entsteht der Eindruck von Unzuverlässigkeit - unabhängig davon, was das SLA technisch vorsieht.

„Neuberechnung und Neustart sind die versteckten Kosten des groß angelegten Trainings", sagte Vasudevan. „Die meisten Teams betrachten dies als unvermeidbar. Das ist es aber nicht."

Die YOCO Guarantee ändert diesen Vertrag.

TorchPass: Zuverlässigkeit in der Software neu definiert

Die Antwort von Clockwork.io besteht darin, Zuverlässigkeit zu einer softwaredefinierten Eigenschaft zu machen, anstatt sie von der Verfügbarkeit der Hardware abhängig zu machen - ein grundlegendes architektonisches Umdenken, das die Kontinuität von Jobs von der Ausfallrate einzelner Komponenten entkoppelt.

TorchPass bekämpft Ausfälle an der Wurzel durch Live-GPU-Migration - wenn ein Fehler auftritt, überträgt TorchPass den vollständigen In-Memory-Zustand des Trainingsjobs, einschließlich Modellgewichten, Gradienten und Optimiererstatus, auf einen funktionsfähigen Ersatzknoten. Das Training wird genau dort fortgesetzt, wo es unterbrochen wurde, wobei die Wiederherstellung in der Regel in etwa drei Minuten abgeschlossen ist. Keine Wiederherstellung von Checkpoints. Keine Neuberechnung. Kein Verlust des Fortschritts.

TorchPass bewältigt drei Arten von Ausfällen: ungeplante Migration bei plötzlichen, katastrophalen Fehlern - Kernel-Abstürze, Stromausfälle, GPU-Ausfälle -, bei denen der Zustand aus fehlerfreien Replikaten rekonstruiert wird; präventive Migration, ausgelöst durch Frühwarnsignale wie steigende ECC-Fehlerraten oder thermische Schwellenwerte, die eine kontrollierte Übergabe ermöglichen, bevor ein Ausfall eintritt; sowie geplante Migration für proaktive Wartung, Sicherheitspatches und Firmware-Updates, die eine Infrastrukturpflege ohne Unterbrechung des Trainings ermöglicht. In allen drei Szenarien wird der Job niemals unterbrochen.

Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 90 % und senkt die Ausfallzeit in einem Cluster mit 1.024 GPUs von etwa drei Stunden pro Tag auf unter zehn Minuten - was bedeutet, dass Forschungsteams nicht mehr feststellen müssen, dass stundenlange Fortschritte unbemerkt verloren gegangen sind, und dass die Zeitpläne für die Veröffentlichung von Modellen vorhersehbar statt nur probabilistisch werden.

In unabhängigen Tests, die von SemiAnalysis, einem führenden Forschungsunternehmen für KI-Infrastruktur, durchgeführt wurden, übertraf TorchPass jedes konkurrierende Fehlertoleranz-Framework - es ist die einzige Lösung, die „die gleiche Trainingsleistung wie Jobs ohne Fehlertoleranz aufrechterhält".

TorchPass ist zu 100 % softwarebasiert, läuft in Cloud- und On-Premises-Umgebungen und unterstützt gängige Trainings-Frameworks wie TorchTitan, Megatron-LM und DeepSpeed auf Schedulern wie Kubernetes und Slurm. Es funktioniert sowohl auf NVIDIA- als auch auf AMD-Hardware sowie über InfiniBand-, RoCE- und Ethernet-Fabrics - ohne jegliche Hardware-Bindung.

Warum die Garantie den Markt verändert

Für KI-Entwickler definiert sie die SLA neu, die sie einfordern sollten. Die Frage lautet nicht mehr „Wie hoch ist die Verfügbarkeit Ihrer Knoten?", sondern „Wie viel Prozent meiner Trainingsfehler werden behoben, ohne dass der Fortschritt verloren geht?" - eine Kennzahl, die direkt mit dem GPU-ROI verknüpft ist, und nicht eine Verfügbarkeitsrate, die in der Vergangenheit kaum einen Einfluss darauf hatte, ob Modelle rechtzeitig trainiert wurden. Die YOCO Guarantee macht diese Frage beantwortbar und überprüfbar.

Für KI-Betreiber legt sie die Messlatte im Wettbewerb höher. KI-Cloud-Betreiber und Infrastrukturanbieter, die Kontinuitätsgarantien auf Job-Ebene anbieten können - gestützt durch vertragliche Gutschriften -, werden Premiumpreise durchsetzen, Kunden gewinnen, die durch Neustarts verursachte Verluste geschädigt wurden, und ihre Margen schützen, indem sie die Leerlaufzeit ihrer GPUs drastisch reduzieren. Diejenigen, die dazu nicht in der Lage sind, werden sich in einem sich zunehmend standardisierten Markt nur noch über den reinen GPU-Preis im Wettbewerb behaupten müssen.

Und für die Branche insgesamt setzt sie einen neuen Standard für die Rechenschaftspflicht. Der Markt für KI-Infrastruktur hat die Behauptungen der Anbieter zur Fehlertoleranz lange Zeit ungeprüft hingenommen, ohne dass dahinter vertragliche Verpflichtungen standen. Die YOCO Guarantee - messbar und vertraglich abgesichert - führt einen Standard ein, von dem der Markt zunehmend erwarten wird, dass andere ihn erfüllen oder erklären, warum sie dazu nicht in der Lage sind.

„Es besteht ein großer Unterschied zwischen einem Anbieter, der eine Folie erstellt, auf der steht, dass sein Produkt funktioniert, und einem, der dies in einen Vertrag aufnimmt", sagte Jordan Nanos, technischer Mitarbeiter und Hauptautor von ClusterMAX bei SemiAnalysis. „In unseren Tests lieferte TorchPass bei einem GPT-OSS-120B-Trainingslauf auf einem 64x-H200-Cluster die schnellste und effizienteste fehlertolerante Leistung im Vergleich zu Checkpoint-Restart, gemessen an der Job-Abschlusszeit. TorchPass übertraf bei diesem Job auch TorchFT (gemessen an MFU und Tokens/Sek./GPU), während die Wiederherstellungszeit gleich blieb. Die YOCO Guarantee spiegelt lediglich wider, was wir in den Tests festgestellt haben, und verankert dies vertraglich."

„Jedes Unternehmen, das groß angelegte KI-Trainings durchführt, kennt die Kosten eines fehlgeschlagenen Jobs: verlorene Arbeitsstunden, in Rechnung gestellte Neuberechnungen, Verzögerungen im Modellzeitplan. Jede Produktentscheidung, die wir bei Scaleway treffen, läuft auf eine Frage hinaus: Machen wir die Ergebnisse unserer Kunden vorhersehbarer? Die Verfügbarkeit der Knoten beantwortet eine ganz andere Frage. Die YOCO Guarantee ist die erste Infrastrukturzusage, die wir kennen, die auf der richtigen Kennzahl basiert - nämlich darauf, ob der Fortschritt gesichert ist und die Jobs bis zum Abschluss weiterlaufen, und nicht darauf, ob die Hardware in Betrieb bleibt. Das ist das Modell der Rechenschaftspflicht, das dem KI-Infrastrukturmarkt bisher gefehlt hat", sagte Fred Bardolle, Leiter für Produkte und KI bei Scaleway.

Verfügbarkeit

Die YOCO Guarantee steht neuen und verlängernden TorchPass-Kunden ab dem 3. August 2026 zur Verfügung. Bestehende TorchPass-Kunden sollten sich an ihr Clockwork.io-Kundenteam wenden, um die Aufnahme der Garantie in ihren aktuellen Vertrag zu besprechen. Um mehr zu erfahren oder loszulegen, besuchen Sie clockwork.io/yoco.

Clockwork.io ist vom 8. bis 9. Juli auf dem RAISE Summit in Paris, Frankreich, am Stand Nr. 27A vertreten. Suresh Vasudevan, CEO von Clockwork.io, wird außerdem am 8. Juli um 10:40 Uhr Ortszeit auf der Hauptbühne an der Podiumsdiskussion „Infrastruktur als Schicksal: Die Compute-Capital-Cloud-Trinität" teilnehmen.

Über Clockwork.io

Clockwork.io ist Vorreiter bei Software-Driven AI Fabrics - einer programmierbaren Schicht zwischen Hardware und Workload, die nanosekundengenaue Telemetrie, KI-Fehlertoleranz und Leistungsoptimierung über alle Beschleuniger, Netzwerke und Bereitstellungsmodelle hinweg bietet. Moderne KI-Workloads erfordern, dass der gesamte Cluster wie eine einzige Maschine agiert, doch Ausfälle und Infrastrukturengpässe beeinträchtigen die Effizienz erheblich. Die FleetIQ-Plattform von Clockwork.io stellt diese verlorene Kapazität wieder her und ermöglicht es Unternehmen, die anspruchsvollsten KI-Workloads der Welt schneller, zuverlässiger und kostengünstiger zu trainieren, bereitzustellen und auszuführen - über jede Ethernet-, RoCE- oder InfiniBand-Struktur hinweg, ohne Hardware-Bindung. TorchPass, das KI-Fehlertoleranzprodukt von Clockwork.io, wurde von SemiAnalysis in unabhängigen Benchmarks als einzige Lösung bewertet, die bei Ausfällen den vollen Trainingsdurchsatz aufrechterhält und dabei Checkpoint-Restart sowie führende Open-Source-Frameworks übertrifft. Uber, Wells Fargo, DCAI, Nebius, NScale und White Fiber vertrauen auf Clockwork.io zur Unterstützung ihrer KI-Infrastruktur. Erfahren Sie mehr unter www.clockwork.io

© 2026 Clockwork Systems Inc. TorchPass und YOCO Guarantee sind Marken von Clockwork Systems Inc. Alle anderen Marken sind Eigentum ihrer jeweiligen Inhaber.

Medienkontakt

Dana Trismen
[email protected]
650-269-7478

QUELLE: Clockwork

Hinweis/Disclaimer zur Übersetzung (inkl. KI-Unterstützung): Die Originalmeldung in der Ausgangssprache (in der Regel Englisch) ist die einzige maßgebliche, autorisierte und rechtsverbindliche Fassung. Diese deutschsprachige Übersetzung/Zusammenfassung dient ausschließlich der leichteren Verständlichkeit und kann gekürzt oder redaktionell verdichtet sein. Die Übersetzung kann ganz oder teilweise mithilfe maschineller Übersetzung bzw. generativer KI (Large Language Models) erfolgt sein und wurde redaktionell geprüft; trotzdem können Fehler, Auslassungen oder Sinnverschiebungen auftreten. Es wird keine Gewähr für Richtigkeit, Vollständigkeit, Aktualität oder Angemessenheit übernommen; Haftungsansprüche sind ausgeschlossen (auch bei Fahrlässigkeit), maßgeblich ist stets die Originalfassung. Diese Mitteilung stellt weder eine Kauf- noch eine Verkaufsempfehlung dar und ersetzt keine rechtliche, steuerliche oder finanzielle Beratung. Bitte beachten Sie die englische Originalmeldung bzw. die offiziellen Unterlagen auf www.sedarplus.ca, www.sec.gov, www.asx.com.au oder auf der Website des Emittenten; bei Abweichungen gilt ausschließlich das Original.

J.Hasler--NZN