Zürcher Nachrichten - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.284503
AFN 77.077368
ALL 96.672535
AMD 444.268837
ANG 2.088356
AOA 1069.812202
ARS 1666.951235
AUD 1.755223
AWG 2.099959
AZN 1.977594
BAM 1.958282
BBD 2.348677
BDT 142.67084
BGN 1.958842
BHD 0.439657
BIF 3445.467236
BMD 1.166644
BND 1.510615
BOB 8.058214
BRL 6.356688
BSD 1.166078
BTN 104.846244
BWP 15.492637
BYN 3.352535
BYR 22866.217636
BZD 2.345263
CAD 1.611893
CDF 2603.949043
CHF 0.936867
CLF 0.027523
CLP 1079.732385
CNY 8.248289
CNH 8.244613
COP 4474.067141
CRC 569.622013
CUC 1.166644
CUP 30.91606
CVE 110.405889
CZK 24.214831
DJF 207.653207
DKK 7.468667
DOP 74.634602
DZD 151.273095
EGP 55.344765
ERN 17.499656
ETB 180.875365
FJD 2.63714
FKP 0.874627
GBP 0.874563
GEL 3.144117
GGP 0.874627
GHS 13.264757
GIP 0.874627
GMD 85.164683
GNF 10132.80021
GTQ 8.932437
GYD 243.968192
HKD 9.076121
HNL 30.71293
HRK 7.536985
HTG 152.653493
HUF 381.862915
IDR 19474.784235
ILS 3.771351
IMP 0.874627
INR 105.17941
IQD 1527.629771
IRR 49130.280577
ISK 149.003932
JEP 0.874627
JMD 186.64658
JOD 0.827088
JPY 181.000109
KES 150.848748
KGS 102.023311
KHR 4668.917998
KMF 492.323307
KPW 1049.978797
KRW 1710.652425
KWD 0.358124
KYD 0.971828
KZT 589.724967
LAK 25286.943606
LBP 104425.214634
LKR 359.684369
LRD 205.24279
LSL 19.763266
LTL 3.444796
LVL 0.705691
LYD 6.339035
MAD 10.770352
MDL 19.841064
MGA 5201.59318
MKD 61.718495
MMK 2449.482257
MNT 4138.521318
MOP 9.351013
MRU 46.501943
MUR 53.782159
MVR 17.948159
MWK 2022.063027
MXN 21.188759
MYR 4.794321
MZN 74.559923
NAD 19.763266
NGN 1691.446479
NIO 42.914211
NOK 11.778815
NPR 167.75163
NZD 2.015712
OMR 0.447547
PAB 1.166178
PEN 3.919768
PGK 4.948251
PHP 68.736353
PKR 326.920482
PLN 4.229381
PYG 8020.165807
QAR 4.250542
RON 5.09217
RSD 117.549501
RUB 89.447988
RWF 1696.650557
SAR 4.378528
SBD 9.602169
SCR 15.76892
SDG 701.729618
SEK 10.946788
SGD 1.510938
SHP 0.875285
SLE 27.662086
SLL 24463.93409
SOS 665.243216
SRD 45.066272
STD 24147.170324
STN 24.530989
SVC 10.20389
SYP 12899.390409
SZL 19.748031
THB 37.140688
TJS 10.699299
TMT 4.09492
TND 3.42078
TOP 2.808998
TRY 49.655234
TTD 7.9058
TWD 36.31996
TZS 2852.443816
UAH 48.955252
UGX 4125.211153
USD 1.166644
UYU 45.608396
UZS 13950.742787
VES 296.971426
VND 30758.562652
VUV 141.585177
WST 3.253316
XAF 656.789501
XAG 0.020047
XAU 0.000277
XCD 3.152913
XCG 2.101655
XDR 0.816835
XOF 656.789501
XPF 119.331742
YER 278.303287
ZAR 19.749998
ZMK 10501.191496
ZMW 26.960173
ZWL 375.658814
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

L.Zimmermann--NZN