Zürcher Nachrichten - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.257133
AFN 72.444674
ALL 95.829467
AMD 436.123898
ANG 2.075051
AOA 1062.979611
ARS 1619.927116
AUD 1.662949
AWG 2.089154
AZN 1.961607
BAM 1.952301
BBD 2.330054
BDT 141.955547
BGN 1.981418
BHD 0.437657
BIF 3435.911542
BMD 1.159192
BND 1.480234
BOB 8.011674
BRL 6.066866
BSD 1.156841
BTN 108.398101
BWP 15.851518
BYN 3.424861
BYR 22720.166462
BZD 2.326759
CAD 1.59725
CDF 2640.052316
CHF 0.915588
CLF 0.026946
CLP 1063.976571
CNY 7.989967
CNH 7.996768
COP 4295.177918
CRC 539.017545
CUC 1.159192
CUP 30.718592
CVE 110.069127
CZK 24.433505
DJF 206.01339
DKK 7.471961
DOP 69.303682
DZD 153.541818
EGP 61.030197
ERN 17.387882
ETB 178.839134
FJD 2.59688
FKP 0.866178
GBP 0.866444
GEL 3.135607
GGP 0.866178
GHS 12.639399
GIP 0.866178
GMD 85.201782
GNF 10139.737209
GTQ 8.859235
GYD 242.112884
HKD 9.073443
HNL 30.633166
HRK 7.53266
HTG 151.686795
HUF 389.417278
IDR 19603.098726
ILS 3.626359
IMP 0.866178
INR 108.882282
IQD 1515.48352
IRR 1522048.293968
ISK 143.797806
JEP 0.866178
JMD 182.557257
JOD 0.821883
JPY 184.301707
KES 150.347695
KGS 101.369619
KHR 4642.638094
KMF 493.815498
KPW 1043.28958
KRW 1737.930242
KWD 0.355153
KYD 0.964072
KZT 558.478935
LAK 24907.353963
LBP 103603.19292
LKR 363.638184
LRD 212.292217
LSL 19.722248
LTL 3.422794
LVL 0.701184
LYD 7.375874
MAD 10.784829
MDL 20.233731
MGA 4830.237703
MKD 61.61784
MMK 2434.497817
MNT 4137.699448
MOP 9.322989
MRU 46.138904
MUR 53.856252
MVR 17.920827
MWK 2005.961085
MXN 20.574276
MYR 4.585797
MZN 74.083768
NAD 19.722248
NGN 1594.596801
NIO 42.573321
NOK 11.261087
NPR 173.429893
NZD 1.994668
OMR 0.44571
PAB 1.156831
PEN 4.001527
PGK 4.996002
PHP 69.669724
PKR 323.20654
PLN 4.271217
PYG 7548.566992
QAR 4.218693
RON 5.094531
RSD 117.453971
RUB 93.320592
RWF 1692.415273
SAR 4.351013
SBD 9.322194
SCR 17.275706
SDG 696.674379
SEK 10.818566
SGD 1.483041
SHP 0.869694
SLE 28.523343
SLL 24307.692683
SOS 661.095037
SRD 43.284086
STD 23992.937445
STN 24.455952
SVC 10.122855
SYP 128.610351
SZL 19.720566
THB 37.944417
TJS 11.100346
TMT 4.068765
TND 3.393262
TOP 2.791056
TRY 51.41201
TTD 7.859911
TWD 37.055322
TZS 2976.294269
UAH 50.806534
UGX 4332.17858
USD 1.159192
UYU 47.146101
UZS 14113.701414
VES 531.927969
VND 30544.133989
VUV 138.532821
WST 3.174102
XAF 654.769215
XAG 0.015869
XAU 0.000255
XCD 3.132775
XCG 2.084963
XDR 0.814323
XOF 654.791769
XPF 119.331742
YER 276.58016
ZAR 19.668651
ZMK 10434.117463
ZMW 21.894039
ZWL 373.259405
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

L.Zimmermann--NZN