Zürcher Nachrichten - Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

EUR -
AED 4.179981
AFN 72.276545
ALL 94.05733
AMD 418.847741
ANG 2.037513
AOA 1043.563544
ARS 1695.109536
AUD 1.649804
AWG 2.048435
AZN 1.927843
BAM 1.953361
BBD 2.292797
BDT 140.252444
BGN 1.924255
BHD 0.429062
BIF 3396.987596
BMD 1.138019
BND 1.475732
BOB 7.895005
BRL 5.938067
BSD 1.138359
BTN 108.49365
BWP 16.251426
BYN 3.316501
BYR 22305.178182
BZD 2.289502
CAD 1.617632
CDF 2588.994053
CHF 0.920542
CLF 0.026779
CLP 1053.976312
CNY 7.732215
CNH 7.733308
COP 3856.736011
CRC 518.144042
CUC 1.138019
CUP 30.157511
CVE 110.530158
CZK 24.230991
DJF 202.249048
DKK 7.474442
DOP 67.655342
DZD 151.727907
EGP 55.875953
ERN 17.070289
ETB 181.116104
FJD 2.555078
FKP 0.858425
GBP 0.857128
GEL 3.004664
GGP 0.858425
GHS 12.933563
GIP 0.858425
GMD 83.610539
GNF 9980.429279
GTQ 8.682009
GYD 238.128535
HKD 8.926868
HNL 29.872993
HRK 7.533803
HTG 148.84157
HUF 355.527474
IDR 20424.430594
ILS 3.397557
IMP 0.858425
INR 108.295907
IQD 1491.374286
IRR 1565914.550273
ISK 143.777248
JEP 0.858425
JMD 179.026503
JOD 0.806841
JPY 184.958296
KES 147.141949
KGS 99.51965
KHR 4566.296481
KMF 492.762198
KPW 1024.217764
KRW 1763.679242
KWD 0.351966
KYD 0.948699
KZT 545.609272
LAK 25605.433996
LBP 101909.627922
LKR 382.415871
LRD 206.977226
LSL 18.661742
LTL 3.360275
LVL 0.688376
LYD 7.30034
MAD 10.705917
MDL 20.132513
MGA 4879.266197
MKD 61.638191
MMK 2389.39851
MNT 4077.504792
MOP 9.197356
MRU 45.668494
MUR 53.716132
MVR 17.582695
MWK 1975.601923
MXN 19.973872
MYR 4.660755
MZN 72.716148
NAD 18.665506
NGN 1565.341434
NIO 41.657182
NOK 11.279216
NPR 173.590239
NZD 2.005833
OMR 0.437566
PAB 1.138359
PEN 3.889737
PGK 4.982296
PHP 70.134421
PKR 316.654158
PLN 4.291815
PYG 6919.240408
QAR 4.148651
RON 5.228283
RSD 117.341453
RUB 88.19652
RWF 1668.336286
SAR 4.269167
SBD 9.160036
SCR 15.281775
SDG 683.369191
SEK 11.070077
SGD 1.474571
SHP 0.849646
SLE 27.739161
SLL 23863.699777
SOS 650.376047
SRD 42.680845
STD 23554.701755
STN 24.922623
SVC 9.96039
SYP 125.78766
SZL 18.660565
THB 37.956928
TJS 10.530069
TMT 3.983068
TND 3.344354
TOP 2.740078
TRY 53.106243
TTD 7.728216
TWD 36.251033
TZS 2987.298406
UAH 51.032869
UGX 4171.718705
USD 1.138019
UYU 45.762066
UZS 13579.412928
VES 719.879927
VND 29930.476468
VUV 136.674264
WST 3.164699
XAF 655.127624
XAG 0.018995
XAU 0.00028
XCD 3.075554
XCG 2.051603
XDR 0.813704
XOF 653.802249
XPF 119.331742
YER 271.572982
ZAR 18.676832
ZMK 10243.53666
ZMW 20.724763
ZWL 366.441749
Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA
Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

Clockwork.io lanza primer compromiso contractual para eliminar el desperdicio de GPU en entrenamiento de IA

La garantía "You Only Compute Once" (YOCO) se compromete a resolver el 90 % de los fallos durante el entrenamiento de modelos de IA sin pérdida de progreso; en caso contrario, los clientes recibirán una compensación económica

Tamaño del texto:

PALO ALTO (California, EE. UU.) / ACCESS Newswire / 1 de julio de 2026 / Clockwork.io, pionera en Software-Driven AI Fabrics™ y la empresa responsable de TorchPass, su solución de tolerancia a fallos para IA, anunció hoy la Garantía YOCO, el primer compromiso contractual del sector destinado a reducir drásticamente el coste oculto y acumulativo que provocan los fallos durante el entrenamiento de modelos de inteligencia artificial a gran escala. El anuncio marca un punto de inflexión en la forma en que la industria mide la fiabilidad de la infraestructura de IA, alejándose de las métricas tradicionales de disponibilidad ("uptime") diseñadas para una era anterior y centrándose en lo que realmente valoran los equipos de IA: que el entrenamiento finalice a tiempo y sin pérdida de trabajo.

En virtud de la garantía YOCO (You Only Compute Once), Clockwork.io se compromete a que al menos el 90 % de los fallos de entrenamiento en cargas de trabajo TorchPass compatibles se resolverán mediante la migración en caliente de las GPU, sin pérdida del progreso del entrenamiento, sin necesidad de volver al último punto de control ("checkpoint") y sin tener que recomputar el trabajo ya realizado. Si Clockwork.io no cumple este compromiso durante cualquier año de contrato, los clientes recibirán un crédito del 25 % aplicable a la siguiente renovación o ampliación de TorchPass.

"Desarrollamos TorchPass para que los fallos durante el entrenamiento dejaran de ser un problema", afirmó Suresh Vasudevan, director ejecutivo de Clockwork.io. "La garantía YOCO queda reflejada en el propio contrato. Ponemos en juego nuestra propia credibilidad porque sabemos que TorchPass cumple lo que promete, y queremos que nuestros clientes también lo sepan".

El coste oculto del progreso en IA
Todas las organizaciones que entrenan modelos de IA a gran escala se enfrentan al mismo problema: los clústeres de GPU fallan constantemente y cada fallo obliga a reiniciar un costoso ciclo de recuperación. Según una investigación publicada por Meta FAIR en HPCA 2025, un clúster de 1.024 GPU presenta un tiempo medio entre fallos de apenas 7,9 horas, mientras que en un clúster de 16.384 GPU esa cifra se reduce a 1,8 horas. Cada fallo obliga a asignar nuevos nodos, restaurar el entrenamiento desde el último punto de control y volver a calcular todos los pasos realizados desde entonces. Ese trabajo recomputado supone un coste completo de GPU: capacidad de cálculo que ya se había pagado y que debe volver a ejecutarse desde cero. Habitualmente, cada incidente implica la pérdida de tres o más horas de progreso, acumulándose estas pérdidas día tras día.

Como consecuencia, los clústeres actuales de GPU funcionan de forma efectiva entre un 30 % y un 50 % de su rendimiento teórico, no porque el hardware sea lento, sino porque el modelo de fiabilidad sobre el que se construye nunca fue diseñado para cargas de trabajo de esta naturaleza, duración y escala.

"Los equipos de IA necesitan que sus modelos se completen, no simplemente que sus nodos permanezcan activos. Durante años, el sector ha medido la disponibilidad de los nodos y la ha llamado fiabilidad. YOCO nos hace responsables de lo único que realmente importa: que el modelo termine de entrenarse", añadió Vasudevan.

El impacto económico es considerable. En una implementación típica de 2.048 GPU H200, los reinicios provocados por fallos generan más de 6 millones de dólares anuales en capacidad de cálculo desperdiciada, con cientos de miles de horas de GPU perdidas debido a reintentos encadenados, tiempos de recuperación y recomputación del entrenamiento. Para quienes desarrollan IA, la verdadera unidad de valor no es el tiempo de disponibilidad de las GPU, sino el tiempo necesario para obtener un modelo entrenado. Sin embargo, los contratos de infraestructura que adquieren garantizan la disponibilidad de los nodos, no la continuidad de los trabajos de entrenamiento. Para los operadores de IA ocurre algo similar: cuando el entrenamiento de un cliente falla, se reinicia y pierde días de progreso, la percepción es de falta de fiabilidad, independientemente de lo que establezca el acuerdo de nivel de servicio (SLA).

"La recomputación y los reinicios constituyen el impuesto oculto del entrenamiento de IA a gran escala", señaló Vasudevan. "La mayoría de los equipos lo consideran inevitable. No lo es".

La garantía YOCO cambia ese planteamiento contractual.

TorchPass: la fiabilidad redefinida mediante software
La respuesta de Clockwork.io consiste en convertir la fiabilidad en una propiedad definida por software, en lugar de depender de la disponibilidad del hardware, mediante un replanteamiento arquitectónico que desvincula la continuidad del entrenamiento de la tasa de fallos de cualquier componente individual.

TorchPass aborda los fallos desde su origen mediante la migración en caliente de GPU. Cuando se produce una incidencia, la solución transfiere todo el estado almacenado en memoria del entrenamiento -incluidos los pesos del modelo, los gradientes y el estado del optimizador- a un nodo de reserva operativo. El entrenamiento continúa exactamente donde se había detenido y, por lo general, la recuperación se completa en aproximadamente tres minutos, sin restaurar puntos de control, sin recomputar y sin pérdida de progreso.

TorchPass gestiona tres tipos de incidencias: migración no planificada para fallos repentinos y graves, como bloqueos del kernel, cortes de suministro eléctrico o averías de GPU; migración preventiva, activada por señales tempranas como el aumento de errores ECC o determinados umbrales térmicos; y migración planificada para tareas de mantenimiento, actualizaciones de seguridad o firmware. En los tres casos, el entrenamiento continúa sin interrupciones.

Disponibilidad
La garantía YOCO estará disponible para los nuevos clientes de TorchPass y para las renovaciones a partir del 3 de agosto de 2026. Los clientes actuales podrán ponerse en contacto con su equipo comercial de Clockwork.io para incorporar la garantía a sus contratos vigentes. Más información en clockwork.io/yoco.

Clockwork.io estará presente en RAISE Summit, que se celebrará en París (Francia) los días 8 y 9 de julio, en el stand 27A. Además, Suresh Vasudevan, director ejecutivo de Clockwork.io, participará el 8 de julio, a las 10:40 horas (hora local), en la mesa redonda "Infrastructure as Destiny: The Compute-Capital-Cloud Trinity", que tendrá lugar en el escenario principal.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

R.Bernasconi--NZN