Zürcher Nachrichten - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.32182
AFN 82.262768
ALL 97.889674
AMD 452.732813
ANG 2.10576
AOA 1078.988694
ARS 1460.811676
AUD 1.808653
AWG 2.120912
AZN 2.00049
BAM 1.955078
BBD 2.377293
BDT 144.426666
BGN 1.953881
BHD 0.443514
BIF 3507.653733
BMD 1.17665
BND 1.49951
BOB 8.135996
BRL 6.379682
BSD 1.177415
BTN 100.482455
BWP 15.595169
BYN 3.853026
BYR 23062.349449
BZD 2.364987
CAD 1.604381
CDF 3394.63644
CHF 0.935318
CLF 0.028529
CLP 1094.790994
CNY 8.431175
CNH 8.439702
COP 4697.953547
CRC 594.605689
CUC 1.17665
CUP 31.181238
CVE 110.224296
CZK 24.644916
DJF 209.664157
DKK 7.461411
DOP 70.466972
DZD 152.223964
EGP 58.071582
ERN 17.649757
ETB 163.405301
FJD 2.644228
FKP 0.86208
GBP 0.864073
GEL 3.200704
GGP 0.86208
GHS 12.1855
GIP 0.86208
GMD 84.134958
GNF 10211.619549
GTQ 9.052657
GYD 246.319038
HKD 9.236606
HNL 30.761947
HRK 7.531266
HTG 154.589482
HUF 399.193377
IDR 19104.332557
ILS 3.935696
IMP 0.86208
INR 100.876837
IQD 1542.350097
IRR 49566.401414
ISK 142.398592
JEP 0.86208
JMD 187.92699
JOD 0.834256
JPY 170.717276
KES 152.020778
KGS 102.89788
KHR 4730.454134
KMF 491.840015
KPW 1058.985622
KRW 1608.73416
KWD 0.359055
KYD 0.98125
KZT 611.461992
LAK 25370.954349
LBP 105492.188268
LKR 353.244056
LRD 236.068842
LSL 20.710516
LTL 3.474343
LVL 0.711744
LYD 6.342008
MAD 10.567598
MDL 19.832929
MGA 5298.268577
MKD 61.537902
MMK 2470.426162
MNT 4216.645015
MOP 9.519606
MRU 46.730729
MUR 52.890159
MVR 18.121555
MWK 2041.715435
MXN 21.948944
MYR 4.983096
MZN 75.258156
NAD 20.710516
NGN 1801.326978
NIO 43.325657
NOK 11.876216
NPR 160.77446
NZD 1.957611
OMR 0.452406
PAB 1.17737
PEN 4.174858
PGK 4.86339
PHP 66.61609
PKR 334.240855
PLN 4.244543
PYG 9383.053325
QAR 4.303111
RON 5.057478
RSD 117.184932
RUB 92.830315
RWF 1692.532513
SAR 4.411366
SBD 9.809646
SCR 16.58551
SDG 706.577172
SEK 11.255897
SGD 1.502106
SHP 0.924663
SLE 26.415732
SLL 24673.776596
SOS 672.874393
SRD 43.989059
STD 24354.289331
SVC 10.302327
SYP 15298.723108
SZL 20.695589
THB 38.335862
TJS 11.449918
TMT 4.130043
TND 3.430333
TOP 2.755837
TRY 47.026364
TTD 7.985153
TWD 34.147593
TZS 3107.45741
UAH 49.103536
UGX 4223.440352
USD 1.17665
UYU 47.25255
UZS 14784.79152
VES 128.81205
VND 30767.056806
VUV 139.348855
WST 3.049888
XAF 655.737139
XAG 0.032118
XAU 0.000355
XCD 3.179957
XDR 0.815533
XOF 655.751066
XPF 119.331742
YER 284.925921
ZAR 20.832814
ZMK 10591.263284
ZMW 28.522194
ZWL 378.880975
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

D.Graf--NZN