Zürcher Nachrichten - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.25674
AFN 73.599881
ALL 94.63924
AMD 426.786562
ANG 2.075229
AOA 1063.46406
ARS 1665.300658
AUD 1.638954
AWG 2.086353
AZN 1.969454
BAM 1.953264
BBD 2.335667
BDT 142.356387
BGN 1.959874
BHD 0.437095
BIF 3466.823235
BMD 1.159085
BND 1.485671
BOB 8.042557
BRL 5.900671
BSD 1.159694
BTN 109.603686
BWP 15.538824
BYN 3.210631
BYR 22718.066
BZD 2.332372
CAD 1.626057
CDF 2689.07734
CHF 0.919496
CLF 0.026086
CLP 1026.67098
CNY 7.832459
CNH 7.834968
COP 3981.456975
CRC 528.214147
CUC 1.159085
CUP 30.715753
CVE 110.518845
CZK 24.111344
DJF 205.992431
DKK 7.460034
DOP 67.922316
DZD 154.018025
EGP 57.847843
ERN 17.386275
ETB 183.570112
FJD 2.589049
FKP 0.862506
GBP 0.865176
GEL 3.065779
GGP 0.862506
GHS 13.094994
GIP 0.862506
GMD 84.612839
GNF 10173.867447
GTQ 8.839599
GYD 242.585018
HKD 9.08142
HNL 30.944321
HRK 7.534628
HTG 151.453347
HUF 348.47849
IDR 20572.136031
ILS 3.386568
IMP 0.862506
INR 109.312724
IQD 1518.40135
IRR 1593741.874933
ISK 144.109074
JEP 0.862506
JMD 183.411851
JOD 0.821813
JPY 185.758438
KES 150.124896
KGS 101.361707
KHR 4650.820524
KMF 492.610907
KPW 1043.176906
KRW 1752.38004
KWD 0.357112
KYD 0.966445
KZT 565.540801
LAK 25534.642323
LBP 103796.061813
LKR 388.508897
LRD 211.127136
LSL 18.771217
LTL 3.422477
LVL 0.701119
LYD 7.38919
MAD 10.715761
MDL 20.236724
MGA 4868.156941
MKD 61.531925
MMK 2433.437481
MNT 4146.424702
MOP 9.356651
MRU 46.456179
MUR 54.627955
MVR 17.919737
MWK 2012.171858
MXN 19.925262
MYR 4.711454
MZN 74.067971
NAD 18.779399
NGN 1575.335201
NIO 42.434218
NOK 11.018784
NPR 175.364787
NZD 1.99289
OMR 0.445666
PAB 1.159694
PEN 3.95539
PGK 5.085775
PHP 69.977449
PKR 322.571254
PLN 4.227959
PYG 7076.811199
QAR 4.219652
RON 5.224038
RSD 117.149943
RUB 84.580225
RWF 1724.71848
SAR 4.348764
SBD 9.343876
SCR 16.360628
SDG 696.029758
SEK 10.897891
SGD 1.485981
SHP 0.865374
SLE 28.687692
SLL 24305.437155
SOS 662.425802
SRD 43.270992
STD 23990.719317
STN 24.804419
SVC 10.146912
SYP 128.116096
SZL 18.773561
THB 37.710252
TJS 10.750241
TMT 4.068388
TND 3.374966
TOP 2.790799
TRY 53.683879
TTD 7.877771
TWD 36.578986
TZS 3042.601568
UAH 51.937311
UGX 4290.429144
USD 1.159085
UYU 46.819612
UZS 13914.81526
VES 690.856847
VND 30514.07171
VUV 138.224161
WST 3.175562
XAF 655.106385
XAG 0.01639
XAU 0.000266
XCD 3.132486
XCG 2.090068
XDR 0.815645
XOF 654.883233
XPF 119.331742
YER 276.586687
ZAR 18.740584
ZMK 10433.149863
ZMW 20.497385
ZWL 373.224897
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

O.Krasniqi--NZN