Zürcher Nachrichten - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.229931
AFN 73.136344
ALL 94.043196
AMD 424.098629
ANG 2.062159
AOA 1056.766288
ARS 1654.812476
AUD 1.637547
AWG 2.073213
AZN 1.95705
BAM 1.940962
BBD 2.320957
BDT 141.459817
BGN 1.947531
BHD 0.434342
BIF 3444.988935
BMD 1.151785
BND 1.476314
BOB 7.991905
BRL 5.863508
BSD 1.15239
BTN 108.913395
BWP 15.440959
BYN 3.19041
BYR 22574.986
BZD 2.317682
CAD 1.624806
CDF 2672.141339
CHF 0.920293
CLF 0.025922
CLP 1020.204933
CNY 7.78313
CNH 7.790472
COP 3956.381475
CRC 524.887416
CUC 1.151785
CUP 30.522303
CVE 109.822789
CZK 23.959489
DJF 204.695076
DKK 7.41305
DOP 67.494536
DZD 153.048008
EGP 57.483513
ERN 17.276775
ETB 182.413974
FJD 2.572743
FKP 0.857074
GBP 0.865499
GEL 3.04647
GGP 0.857074
GHS 13.012521
GIP 0.857074
GMD 84.079942
GNF 10109.791704
GTQ 8.783926
GYD 241.057201
HKD 9.025755
HNL 30.749431
HRK 7.532904
HTG 150.499483
HUF 346.283748
IDR 20442.571251
ILS 3.383766
IMP 0.857074
INR 108.624265
IQD 1508.83835
IRR 1583704.374934
ISK 143.201465
JEP 0.857074
JMD 182.25671
JOD 0.816638
JPY 184.588518
KES 149.179398
KGS 100.723324
KHR 4621.529325
KMF 489.508408
KPW 1036.606903
KRW 1741.343426
KWD 0.354863
KYD 0.960358
KZT 561.978985
LAK 25373.823324
LBP 103142.346813
LKR 386.06204
LRD 209.797442
LSL 18.652994
LTL 3.400922
LVL 0.696703
LYD 7.342652
MAD 10.648272
MDL 20.109272
MGA 4837.496941
MKD 61.144393
MMK 2418.111518
MNT 4120.310224
MOP 9.297722
MRU 46.163595
MUR 54.283904
MVR 17.806878
MWK 1999.499056
MXN 19.892099
MYR 4.681781
MZN 73.601486
NAD 18.661125
NGN 1565.413627
NIO 42.166964
NOK 11.073029
NPR 174.260327
NZD 1.987875
OMR 0.442859
PAB 1.15239
PEN 3.930478
PGK 5.053745
PHP 69.536726
PKR 320.539677
PLN 4.201331
PYG 7032.240938
QAR 4.193076
RON 5.191137
RSD 116.412124
RUB 84.047533
RWF 1713.85608
SAR 4.321376
SBD 9.285027
SCR 16.257587
SDG 691.646113
SEK 10.925188
SGD 1.476623
SHP 0.859924
SLE 28.507014
SLL 24152.359778
SOS 658.253797
SRD 42.998468
STD 23839.624055
STN 24.648199
SVC 10.083006
SYP 127.309212
SZL 18.655324
THB 37.47275
TJS 10.682536
TMT 4.042765
TND 3.35371
TOP 2.773222
TRY 53.491481
TTD 7.828156
TWD 36.348609
TZS 3023.439046
UAH 51.610206
UGX 4263.407715
USD 1.151785
UYU 46.524738
UZS 13827.178761
VES 686.505781
VND 30321.89191
VUV 137.353615
WST 3.155562
XAF 650.980478
XAG 0.016647
XAU 0.000267
XCD 3.112757
XCG 2.076905
XDR 0.810508
XOF 650.758731
XPF 119.331742
YER 274.844725
ZAR 18.791079
ZMK 10367.437479
ZMW 20.368291
ZWL 370.8743
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

D.Graf--NZN