Zürcher Nachrichten - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

EUR -
AED 4.257438
AFN 73.611946
ALL 94.654754
AMD 426.856521
ANG 2.075569
AOA 1063.638386
ARS 1665.573638
AUD 1.639536
AWG 2.086695
AZN 1.969777
BAM 1.953584
BBD 2.33605
BDT 142.379723
BGN 1.960195
BHD 0.437167
BIF 3467.391525
BMD 1.159275
BND 1.485914
BOB 8.043876
BRL 5.901638
BSD 1.159884
BTN 109.621653
BWP 15.541371
BYN 3.211157
BYR 22721.79
BZD 2.332754
CAD 1.624428
CDF 2689.51814
CHF 0.919462
CLF 0.02609
CLP 1026.839275
CNY 7.833743
CNH 7.836977
COP 3982.109625
CRC 528.300733
CUC 1.159275
CUP 30.720788
CVE 110.536962
CZK 24.115296
DJF 206.026198
DKK 7.461256
DOP 67.93345
DZD 154.043272
EGP 57.857325
ERN 17.389125
ETB 183.600203
FJD 2.589473
FKP 0.862647
GBP 0.864921
GEL 3.066281
GGP 0.862647
GHS 13.097141
GIP 0.862647
GMD 84.626709
GNF 10175.535172
GTQ 8.841048
GYD 242.624784
HKD 9.083337
HNL 30.949393
HRK 7.533786
HTG 151.478174
HUF 348.535614
IDR 20575.508265
ILS 3.387853
IMP 0.862647
INR 109.330643
IQD 1518.65025
IRR 1594003.124933
ISK 144.132697
JEP 0.862647
JMD 183.441916
JOD 0.821948
JPY 185.788888
KES 150.149504
KGS 101.378322
KHR 4651.582898
KMF 492.691657
KPW 1043.347906
KRW 1752.667295
KWD 0.357171
KYD 0.966604
KZT 565.633506
LAK 25538.828023
LBP 103813.076313
LKR 388.572582
LRD 211.161744
LSL 18.774294
LTL 3.423038
LVL 0.701234
LYD 7.390401
MAD 10.717518
MDL 20.240041
MGA 4868.954941
MKD 61.542012
MMK 2433.836376
MNT 4147.104394
MOP 9.358185
MRU 46.463794
MUR 54.63691
MVR 17.922675
MWK 2012.501698
MXN 19.94412
MYR 4.712226
MZN 74.080113
NAD 18.782477
NGN 1575.593434
NIO 42.441173
NOK 11.012475
NPR 175.393533
NZD 1.991231
OMR 0.445739
PAB 1.159884
PEN 3.956038
PGK 5.086609
PHP 69.98892
PKR 322.62413
PLN 4.228653
PYG 7077.971247
QAR 4.220343
RON 5.224894
RSD 117.169146
RUB 84.594089
RWF 1725.0012
SAR 4.349477
SBD 9.345407
SCR 16.363309
SDG 696.143853
SEK 10.886363
SGD 1.486225
SHP 0.865516
SLE 28.692394
SLL 24309.421361
SOS 662.534388
SRD 43.278085
STD 23994.651933
STN 24.808485
SVC 10.148576
SYP 128.137098
SZL 18.776638
THB 37.716433
TJS 10.752004
TMT 4.069055
TND 3.375519
TOP 2.791256
TRY 53.694406
TTD 7.879063
TWD 36.584983
TZS 3043.100318
UAH 51.945824
UGX 4291.132441
USD 1.159275
UYU 46.827286
UZS 13917.09621
VES 690.970094
VND 30519.07365
VUV 138.246819
WST 3.176082
XAF 655.213772
XAG 0.016488
XAU 0.000267
XCD 3.132999
XCG 2.090411
XDR 0.815779
XOF 654.990583
XPF 119.331742
YER 276.632026
ZAR 18.752635
ZMK 10434.880248
ZMW 20.500745
ZWL 373.286077
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

U.Ammann--NZN