Zürcher Nachrichten - ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

EUR -
AED 4.249064
AFN 72.29654
ALL 96.165114
AMD 436.427557
ANG 2.07037
AOA 1060.790054
ARS 1614.279735
AUD 1.619495
AWG 2.085141
AZN 1.986919
BAM 1.950918
BBD 2.317301
BDT 141.658773
BGN 1.906005
BHD 0.436725
BIF 3440.338569
BMD 1.156805
BND 1.472734
BOB 7.985981
BRL 5.975593
BSD 1.156606
BTN 106.449158
BWP 15.506197
BYN 3.4144
BYR 22673.381286
BZD 2.318927
CAD 1.571925
CDF 2519.52159
CHF 0.902187
CLF 0.026309
CLP 1038.834125
CNY 7.942914
CNH 7.955801
COP 4286.229211
CRC 544.936331
CUC 1.156805
CUP 30.655337
CVE 110.619489
CZK 24.395901
DJF 205.58782
DKK 7.472001
DOP 70.564528
DZD 152.103634
EGP 60.010309
ERN 17.352078
ETB 180.920502
FJD 2.545312
FKP 0.859581
GBP 0.862878
GEL 3.140765
GGP 0.859581
GHS 12.533996
GIP 0.859581
GMD 85.027593
GNF 10150.965802
GTQ 8.867885
GYD 242.322556
HKD 9.052984
HNL 30.73633
HRK 7.533346
HTG 151.76023
HUF 386.986615
IDR 19541.909697
ILS 3.596797
IMP 0.859581
INR 106.686183
IQD 1515.41477
IRR 1529036.150107
ISK 144.797632
JEP 0.859581
JMD 181.166642
JOD 0.820195
JPY 183.82039
KES 149.459299
KGS 101.162273
KHR 4650.356652
KMF 492.798757
KPW 1041.164324
KRW 1711.215915
KWD 0.355012
KYD 0.963817
KZT 567.965956
LAK 24796.119021
LBP 104008.042153
LKR 359.563121
LRD 212.040004
LSL 18.740809
LTL 3.415745
LVL 0.69974
LYD 7.351453
MAD 10.833429
MDL 19.945003
MGA 4823.87726
MKD 61.600396
MMK 2428.638734
MNT 4142.414572
MOP 9.324127
MRU 46.410504
MUR 53.108874
MVR 17.872866
MWK 2009.370284
MXN 20.47607
MYR 4.530014
MZN 73.931944
NAD 18.735339
NGN 1614.03208
NIO 42.477763
NOK 11.16671
NPR 170.319785
NZD 1.957005
OMR 0.444795
PAB 1.156621
PEN 3.954537
PGK 4.97513
PHP 68.60199
PKR 323.320435
PLN 4.253613
PYG 7496.241127
QAR 4.212042
RON 5.090528
RSD 117.420344
RUB 91.655436
RWF 1687.77874
SAR 4.34063
SBD 9.306709
SCR 17.214324
SDG 695.239717
SEK 10.677103
SGD 1.47418
SHP 0.867903
SLE 28.457309
SLL 24257.625212
SOS 661.114251
SRD 43.349537
STD 23943.53139
STN 24.871311
SVC 10.119589
SYP 128.696054
SZL 19.064104
THB 36.84482
TJS 11.085858
TMT 4.048818
TND 3.382209
TOP 2.78531
TRY 51.002094
TTD 7.848461
TWD 36.711797
TZS 3007.693652
UAH 50.986048
UGX 4273.306319
USD 1.156805
UYU 46.523377
UZS 14060.966989
VES 506.284157
VND 30366.135651
VUV 138.146824
WST 3.158941
XAF 654.32807
XAG 0.013522
XAU 0.000224
XCD 3.126324
XCG 2.084538
XDR 0.81164
XOF 650.706536
XPF 119.331742
YER 276.012582
ZAR 19.092763
ZMK 10412.654242
ZMW 22.495997
ZWL 372.490792
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU
ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

ockwork.io presenta una nueva clase de tolerancia a fallos para acabar con el desperdicio de GPU

La nueva solución TorchPass aborda un desafío multimillonario en la infraestructura de IA; utiliza migración en vivo de GPU para mantener el entrenamiento de IA a gran escala en funcionamiento ante fallos de hardware en lugar de obligar a costosos reinicios

Tamaño del texto:

PALO ALTO, CA / ACCESS Newswire / 10 de marzo de 2026 / Clockwork.io, líder en Software-Driven AI Fabrics™, una capa de software programable y neutral respecto a proveedores que optimiza clústeres de GPU a gran escala para observabilidad en tiempo real, tolerancia a fallos y rendimiento determinista, anunció hoy la disponibilidad general de TorchPass Workload Fault Tolerance. Esta nueva clase de tolerancia a fallos impulsada por software elimina uno de los modos de fallo más costosos en el entrenamiento de IA a gran escala: los reinicios catastróficos de trabajos provocados por fallos de infraestructura.

Ofrecido como una capacidad central de la plataforma FleetIQ de Clockwork.io, TorchPass aplica los principios de Software-Driven AI Fabrics al entrenamiento distribuido, utilizando migración en vivo de GPU para permitir que las cargas de trabajo continúen ejecutándose a través de fallos de GPU, interrupciones de red, errores de controladores e incluso caídas completas de nodos, sin reinicios desde checkpoints ni pérdida de progreso.

"Las empresas están invirtiendo miles de millones en chips de nueva generación, y sin embargo los costes de ejecutar trabajos de IA distribuidos siguen estando enormemente inflados porque el ecosistema ha aceptado el fallo como una constante", afirmó Suresh Vasudevan, CEO de Clockwork.io. "Construimos TorchPass para rechazar fundamentalmente esa premisa. En lugar de tratar el fallo como inevitable y reiniciar después, TorchPass hace que los fallos de infraestructura sean invisibles para la carga de trabajo: el entrenamiento continúa a través de los fallos de forma transparente, en software. Para un despliegue típico de 2.048 GPU, eso se traduce en más de 6 millones de dólares al año en capacidad de cómputo recuperada. Esto es exactamente lo que nuestro enfoque de Software-Driven AI Fabric fue diseñado para ofrecer: infraestructura de IA tolerante a fallos".

Dylan Patel, fundador y CEO de SemiAnalysis, coincidió en que los trabajos de entrenamiento a gran escala están limitados por interrupciones. "A medida que se despliegan clústeres Blackwell con un dominio NVL72, y mirando al futuro con el dominio NVL576 de Rubin Ultra, la idea de que un solo error de GPU o una fluctuación en un enlace de red pueda detener toda una ejecución es totalmente inaceptable", afirmó Patel. "TorchPass resuelve un enorme desafío de fiabilidad de clústeres: proporciona conmutación por error transparente y migración en vivo de cargas de trabajo que mantiene alto el MFU, lo que a su vez impulsa una mejor economía de GPU".

Por qué el entrenamiento de IA falla a escala
El entrenamiento distribuido de IA sigue siendo una de las cargas de trabajo más propensas a fallos en la infraestructura moderna. A medida que crece el tamaño de los clústeres, la fragilidad aumenta de forma pronunciada. Investigaciones de Meta FAIR muestran que el tiempo medio hasta el fallo desciende a 7,9 horas en un clúster de 1.024 GPU y a solo 1,8 horas en uno de 16.384 GPU. Esto significa que, para la mayoría de las grandes empresas centradas en IA o nubes de IA, los reinicios provocados por fallos son completamente inevitables, lo que convierte este problema en una gran barrera para escalar el impacto de la IA.

Cada fallo obliga a los trabajos de entrenamiento a retroceder hasta el checkpoint más reciente, descartando minutos u horas de trabajo completado y perdiendo tiempo adicional en intervención manual, reprovisión de recursos y reinicio del entrenamiento. Estos reinicios limitan silenciosamente la utilización de GPU, lo que convierte la fiabilidad en uno de los mayores costes ocultos de la infraestructura de IA.

TorchPass aborda este problema al gestionar de forma proactiva los fallos costosos de cargas de trabajo de IA, resolviéndolos antes de que el trabajo se detenga o necesite reiniciarse. Fundamental para empresas que ejecutan grandes cargas de trabajo de IA y para nubes de IA por igual, TorchPass mejora drásticamente la fiabilidad de las cargas de trabajo y la utilización de los clústeres. Para las nubes de IA, que ahora pueden solucionar problemas en GPU afectadas mientras mantienen la ejecución del entrenamiento según lo previsto, esto se traduce en mejores SLA para los clientes y una economía global de nube de IA más favorable, mejorando su capacidad para proteger márgenes y ofrecer nuevos modelos antes.

"Gestionar la producción de cómputo en clústeres de GPU a gran escala es vital para garantizar que estamos ofreciendo capacidad fiable a nuestros clientes. Al usar TorchPass contamos con el respaldo de una empresa que se centra en la resiliencia como si fuera una función central del negocio: sustituye cualquier GPU específica que falle y mantiene el resto del trabajo en marcha, en lugar de permitir que un pequeño problema afecte a nuestras operaciones a gran escala", afirmó David Power, CTO de Nscale.

Habilitando la próxima generación de infraestructura de IA
Al convertir la fiabilidad en una capacidad definida por software en lugar de una limitación de hardware, TorchPass proporciona la confianza operativa necesaria para desplegar sistemas de nueva generación altamente acoplados, como los NVIDIA GB200 y NVIDIA GB300 NVL72, así como futuros sistemas a escala de rack, donde las arquitecturas densas amplifican el coste incluso de pequeños fallos.

TorchPass se basa en el lanzamiento previo de Network Fault Tolerance de Clockwork.io, que aplica los mismos principios de Software-Driven AI Fabric a la resiliencia de red mediante el redireccionamiento transparente del tráfico alrededor de fallos de enlace.

Para obtener más información sobre el lanzamiento de TorchPass, visitar al equipo de Clockwork.io en persona en NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205, o visitar https://clockwork.io.

Acerca de Clockwork.io
Clockwork.io es pionera en Software-Driven AI Fabrics™, ofreciendo una capa de software programable que hace que los clústeres de IA a gran escala sean observables, deterministas y resilientes por diseño para impulsar el progreso continuo de las cargas de trabajo y la máxima utilización del clúster. Su plataforma FleetIQ permite a las empresas entrenar, desplegar y servir las cargas de trabajo de IA más exigentes del mundo de forma más rápida, fiable y a menor coste. Empresas como Uber, Wells Fargo, Nebius, Nscale y White Fiber confían en Clockwork.io para impulsar su infraestructura de IA. Más información en www.clockwork.io.

Contacto:

Dana Trismen
[email protected]
650-269-7478

SOURCE: Clockwork

U.Ammann--NZN