Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

TECHNIK 01.07.2026

„You Only Compute Once" (YOCO) garantiert, 90 % der Fehler beim KI-Training ohne Verlust des Fortschritts zu beheben - andernfalls erhalten Kunden eine Gutschrift

Textgröße:

PALO ALTO, Kalifornien / ACCESS Newswire / 1. Juli 2026 / Clockwork.io, Pionier im Bereich Software-Driven AI Fabrics^™ und Entwickler der TorchPass-KI-Fehlertoleranz, hat heute die YOCO Guarantee vorgestellt - die branchenweit erste vertragliche Verpflichtung, die versteckten, sich summierenden Kosten von Trainingsfehlern in groß angelegten KI-Infrastrukturen drastisch zu senken. Die Ankündigung markiert einen Wendepunkt in der Art und Weise, wie die KI-Branche die Zuverlässigkeit von Infrastrukturen misst - weg von Verfügbarkeitskennzahlen, die für eine frühere Ära konzipiert waren, hin zu den Zielen, die KI-Teams am meisten schätzen: ob der Trainingsjob pünktlich und ohne Datenverlust abgeschlossen wird.

Im Rahmen der YOCO (You Only Compute Once) Guarantee verpflichtet sich Clockwork.io, dass mindestens 90 % der Trainingsausfälle bei unterstützten TorchPass-Workloads durch eine Live-GPU-Migration behoben werden - ohne Verlust des Trainingsfortschritts, ohne Rollback auf einen Checkpoint und ohne erneute Berechnung. Sollte Clockwork.io diese Verpflichtung in einem Vertragsjahr nicht erfüllen, erhalten Kunden eine Gutschrift in Höhe von 25 % auf ihre nächste TorchPass-Verlängerung oder -Erweiterung.

„Wir haben TorchPass entwickelt, um Trainingsfehler irrelevant zu machen", sagte Suresh Vasudevan, CEO von Clockwork.io. „Die YOCO Guarantee ist eine Klausel im Vertrag. Wir gehen ins Risiko, weil wir wissen, dass TorchPass hält, was es verspricht, und wir möchten, dass unsere Kunden das auch wissen."

Die versteckte Steuer auf den KI-Fortschritt

Jedes KI-Unternehmen, das in großem Maßstab trainiert, sieht sich mit derselben brutalen Realität konfrontiert: GPU-Cluster fallen ständig aus, und jeder Ausfall löst einen kostspieligen Neustartzyklus aus. Laut einer von Meta FAIR auf der HPCA 2025 veröffentlichten Studie beträgt die mittlere Zeit bis zum Ausfall bei einem Cluster mit 1.024 GPUs nur 7,9 Stunden - und bei 16.384 GPUs sinkt dieser Wert auf 1,8 Stunden. Jeder Ausfall zwingt die Teams dazu, Ersatzknoten bereitzustellen, den Zustand des letzten Checkpoints wiederherzustellen und jeden Trainingsschritt seit diesem Checkpoint neu zu berechnen. Diese Neuberechnung kostet den vollen Preis der GPUs - Rechenleistung, für die Sie bereits bezahlt haben, wird von Grund auf neu ausgeführt. Der Zyklus kostet typischerweise drei oder mehr Stunden Fortschritt pro Ausfallereignis, wobei sich die Verluste täglich summieren.

Die Folge ist, dass aktuelle GPU-Cluster effektiv nur mit 30-50 % ihrer theoretischen Leistung arbeiten - nicht, weil die Hardware langsam ist, sondern weil das sie steuernde Zuverlässigkeitsframework nie für Workloads dieser Art, Dauer oder Größenordnung konzipiert wurde.

„KI-Teams brauchen fertige Modelle, nicht Knoten, die in Betrieb sind. Die Branche hat bisher die Betriebszeit der Knoten gemessen und dies als Zuverlässigkeit bezeichnet. YOCO macht uns für das einzig Wichtige verantwortlich - Ihr fertiges Modell", sagte Vasudevan.

Die finanziellen Folgen sind gravierend. In einer typischen H200-Bereitstellung mit 2.048 GPUs verursachen ausfallbedingte Neustarts jährlich über 6 Millionen Dollar an verschwendeter Rechenleistung - Hunderttausende von GPU-Stunden gehen durch kaskadierende Wiederholungsversuche, Leerlaufzeiten bei der Wiederherstellung und neu berechnete Trainingsschritte verloren. Für KI-Entwickler ist die eigentliche Werteinheit nicht die GPU-Verfügbarkeit, sondern die Zeit bis zum trainierten Modell - doch der Vertrag für die Infrastruktur, den sie abschließen, garantiert die Verfügbarkeit der Knoten, nicht die Kontinuität der Jobs. Für KI-Betreiber ist diese Lücke ebenso kostspielig: Wenn der Trainingsjob eines Kunden fehlschlägt, neu gestartet wird und Tage an Fortschritt verloren gehen, entsteht der Eindruck von Unzuverlässigkeit - unabhängig davon, was das SLA technisch vorsieht.

„Neuberechnung und Neustart sind die versteckten Kosten des groß angelegten Trainings", sagte Vasudevan. „Die meisten Teams betrachten dies als unvermeidbar. Das ist es aber nicht."

Die YOCO Guarantee ändert diesen Vertrag.

TorchPass: Zuverlässigkeit in der Software neu definiert

Die Antwort von Clockwork.io besteht darin, Zuverlässigkeit zu einer softwaredefinierten Eigenschaft zu machen, anstatt sie von der Verfügbarkeit der Hardware abhängig zu machen - ein grundlegendes architektonisches Umdenken, das die Kontinuität von Jobs von der Ausfallrate einzelner Komponenten entkoppelt.

TorchPass bekämpft Ausfälle an der Wurzel durch Live-GPU-Migration - wenn ein Fehler auftritt, überträgt TorchPass den vollständigen In-Memory-Zustand des Trainingsjobs, einschließlich Modellgewichten, Gradienten und Optimiererstatus, auf einen funktionsfähigen Ersatzknoten. Das Training wird genau dort fortgesetzt, wo es unterbrochen wurde, wobei die Wiederherstellung in der Regel in etwa drei Minuten abgeschlossen ist. Keine Wiederherstellung von Checkpoints. Keine Neuberechnung. Kein Verlust des Fortschritts.

TorchPass bewältigt drei Arten von Ausfällen: ungeplante Migration bei plötzlichen, katastrophalen Fehlern - Kernel-Abstürze, Stromausfälle, GPU-Ausfälle -, bei denen der Zustand aus fehlerfreien Replikaten rekonstruiert wird; präventive Migration, ausgelöst durch Frühwarnsignale wie steigende ECC-Fehlerraten oder thermische Schwellenwerte, die eine kontrollierte Übergabe ermöglichen, bevor ein Ausfall eintritt; sowie geplante Migration für proaktive Wartung, Sicherheitspatches und Firmware-Updates, die eine Infrastrukturpflege ohne Unterbrechung des Trainings ermöglicht. In allen drei Szenarien wird der Job niemals unterbrochen.

Dieser Ansatz reduziert den Verlust an Trainingsfortschritt um 90 % und senkt die Ausfallzeit in einem Cluster mit 1.024 GPUs von etwa drei Stunden pro Tag auf unter zehn Minuten - was bedeutet, dass Forschungsteams nicht mehr feststellen müssen, dass stundenlange Fortschritte unbemerkt verloren gegangen sind, und dass die Zeitpläne für die Veröffentlichung von Modellen vorhersehbar statt nur probabilistisch werden.

In unabhängigen Tests, die von SemiAnalysis, einem führenden Forschungsunternehmen für KI-Infrastruktur, durchgeführt wurden, übertraf TorchPass jedes konkurrierende Fehlertoleranz-Framework - es ist die einzige Lösung, die „die gleiche Trainingsleistung wie Jobs ohne Fehlertoleranz aufrechterhält".

TorchPass ist zu 100 % softwarebasiert, läuft in Cloud- und On-Premises-Umgebungen und unterstützt gängige Trainings-Frameworks wie TorchTitan, Megatron-LM und DeepSpeed auf Schedulern wie Kubernetes und Slurm. Es funktioniert sowohl auf NVIDIA- als auch auf AMD-Hardware sowie über InfiniBand-, RoCE- und Ethernet-Fabrics - ohne jegliche Hardware-Bindung.

Warum die Garantie den Markt verändert

Für KI-Entwickler definiert sie die SLA neu, die sie einfordern sollten. Die Frage lautet nicht mehr „Wie hoch ist die Verfügbarkeit Ihrer Knoten?", sondern „Wie viel Prozent meiner Trainingsfehler werden behoben, ohne dass der Fortschritt verloren geht?" - eine Kennzahl, die direkt mit dem GPU-ROI verknüpft ist, und nicht eine Verfügbarkeitsrate, die in der Vergangenheit kaum einen Einfluss darauf hatte, ob Modelle rechtzeitig trainiert wurden. Die YOCO Guarantee macht diese Frage beantwortbar und überprüfbar.

Für KI-Betreiber legt sie die Messlatte im Wettbewerb höher. KI-Cloud-Betreiber und Infrastrukturanbieter, die Kontinuitätsgarantien auf Job-Ebene anbieten können - gestützt durch vertragliche Gutschriften -, werden Premiumpreise durchsetzen, Kunden gewinnen, die durch Neustarts verursachte Verluste geschädigt wurden, und ihre Margen schützen, indem sie die Leerlaufzeit ihrer GPUs drastisch reduzieren. Diejenigen, die dazu nicht in der Lage sind, werden sich in einem sich zunehmend standardisierten Markt nur noch über den reinen GPU-Preis im Wettbewerb behaupten müssen.

Und für die Branche insgesamt setzt sie einen neuen Standard für die Rechenschaftspflicht. Der Markt für KI-Infrastruktur hat die Behauptungen der Anbieter zur Fehlertoleranz lange Zeit ungeprüft hingenommen, ohne dass dahinter vertragliche Verpflichtungen standen. Die YOCO Guarantee - messbar und vertraglich abgesichert - führt einen Standard ein, von dem der Markt zunehmend erwarten wird, dass andere ihn erfüllen oder erklären, warum sie dazu nicht in der Lage sind.

„Es besteht ein großer Unterschied zwischen einem Anbieter, der eine Folie erstellt, auf der steht, dass sein Produkt funktioniert, und einem, der dies in einen Vertrag aufnimmt", sagte Jordan Nanos, technischer Mitarbeiter und Hauptautor von ClusterMAX bei SemiAnalysis. „In unseren Tests lieferte TorchPass bei einem GPT-OSS-120B-Trainingslauf auf einem 64x-H200-Cluster die schnellste und effizienteste fehlertolerante Leistung im Vergleich zu Checkpoint-Restart, gemessen an der Job-Abschlusszeit. TorchPass übertraf bei diesem Job auch TorchFT (gemessen an MFU und Tokens/Sek./GPU), während die Wiederherstellungszeit gleich blieb. Die YOCO Guarantee spiegelt lediglich wider, was wir in den Tests festgestellt haben, und verankert dies vertraglich."

„Jedes Unternehmen, das groß angelegte KI-Trainings durchführt, kennt die Kosten eines fehlgeschlagenen Jobs: verlorene Arbeitsstunden, in Rechnung gestellte Neuberechnungen, Verzögerungen im Modellzeitplan. Jede Produktentscheidung, die wir bei Scaleway treffen, läuft auf eine Frage hinaus: Machen wir die Ergebnisse unserer Kunden vorhersehbarer? Die Verfügbarkeit der Knoten beantwortet eine ganz andere Frage. Die YOCO Guarantee ist die erste Infrastrukturzusage, die wir kennen, die auf der richtigen Kennzahl basiert - nämlich darauf, ob der Fortschritt gesichert ist und die Jobs bis zum Abschluss weiterlaufen, und nicht darauf, ob die Hardware in Betrieb bleibt. Das ist das Modell der Rechenschaftspflicht, das dem KI-Infrastrukturmarkt bisher gefehlt hat", sagte Fred Bardolle, Leiter für Produkte und KI bei Scaleway.

Verfügbarkeit

Die YOCO Guarantee steht neuen und verlängernden TorchPass-Kunden ab dem 3. August 2026 zur Verfügung. Bestehende TorchPass-Kunden sollten sich an ihr Clockwork.io-Kundenteam wenden, um die Aufnahme der Garantie in ihren aktuellen Vertrag zu besprechen. Um mehr zu erfahren oder loszulegen, besuchen Sie clockwork.io/yoco.

Clockwork.io ist vom 8. bis 9. Juli auf dem RAISE Summit in Paris, Frankreich, am Stand Nr. 27A vertreten. Suresh Vasudevan, CEO von Clockwork.io, wird außerdem am 8. Juli um 10:40 Uhr Ortszeit auf der Hauptbühne an der Podiumsdiskussion „Infrastruktur als Schicksal: Die Compute-Capital-Cloud-Trinität" teilnehmen.

Über Clockwork.io

Clockwork.io ist Vorreiter bei Software-Driven AI Fabrics^™ - einer programmierbaren Schicht zwischen Hardware und Workload, die nanosekundengenaue Telemetrie, KI-Fehlertoleranz und Leistungsoptimierung über alle Beschleuniger, Netzwerke und Bereitstellungsmodelle hinweg bietet. Moderne KI-Workloads erfordern, dass der gesamte Cluster wie eine einzige Maschine agiert, doch Ausfälle und Infrastrukturengpässe beeinträchtigen die Effizienz erheblich. Die FleetIQ-Plattform von Clockwork.io stellt diese verlorene Kapazität wieder her und ermöglicht es Unternehmen, die anspruchsvollsten KI-Workloads der Welt schneller, zuverlässiger und kostengünstiger zu trainieren, bereitzustellen und auszuführen - über jede Ethernet-, RoCE- oder InfiniBand-Struktur hinweg, ohne Hardware-Bindung. TorchPass, das KI-Fehlertoleranzprodukt von Clockwork.io, wurde von SemiAnalysis in unabhängigen Benchmarks als einzige Lösung bewertet, die bei Ausfällen den vollen Trainingsdurchsatz aufrechterhält und dabei Checkpoint-Restart sowie führende Open-Source-Frameworks übertrifft. Uber, Wells Fargo, DCAI, Nebius, NScale und White Fiber vertrauen auf Clockwork.io zur Unterstützung ihrer KI-Infrastruktur. Erfahren Sie mehr unter www.clockwork.io

Medienkontakt

Dana Trismen
[email protected]
650-269-7478

QUELLE: Clockwork

Hinweis/Disclaimer zur Übersetzung (inkl. KI-Unterstützung): Die Originalmeldung in der Ausgangssprache (in der Regel Englisch) ist die einzige maßgebliche, autorisierte und rechtsverbindliche Fassung. Diese deutschsprachige Übersetzung/Zusammenfassung dient ausschließlich der leichteren Verständlichkeit und kann gekürzt oder redaktionell verdichtet sein. Die Übersetzung kann ganz oder teilweise mithilfe maschineller Übersetzung bzw. generativer KI (Large Language Models) erfolgt sein und wurde redaktionell geprüft; trotzdem können Fehler, Auslassungen oder Sinnverschiebungen auftreten. Es wird keine Gewähr für Richtigkeit, Vollständigkeit, Aktualität oder Angemessenheit übernommen; Haftungsansprüche sind ausgeschlossen (auch bei Fahrlässigkeit), maßgeblich ist stets die Originalfassung. Diese Mitteilung stellt weder eine Kauf- noch eine Verkaufsempfehlung dar und ersetzt keine rechtliche, steuerliche oder finanzielle Beratung. Bitte beachten Sie die englische Originalmeldung bzw. die offiziellen Unterlagen auf www.sedarplus.ca, www.sec.gov, www.asx.com.au oder auf der Website des Emittenten; bei Abweichungen gilt ausschließlich das Original.

J.Hasler--NZN

Zürcher Nachrichten - Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

Clockwork.io führt die branchenweit erste vertragliche Verpflichtung zur Beendigung von GPU-Verschwendung beim KI-Training ein

Vorgestellt

Hydrosat startet Data-Discovery-Plattform und erschließt damit 500 Millionen Quadratkilometer Satellitenbilder

Sauce Labs ist die erste spezialisierte Software-Qualitätsplattform, die die ISO 42001-Zertifizierung für verantwortungsvolle KI erhalten hat

Tenstorrent stellt neue Leistungsrekorde auf, bringt TT-Ascalon S auf den Markt und expandiert in ganz Japan

Schließung für Renovierung: Cern-Teilchenbeschleuniger soll noch leistungsfähiger werden