Zürcher Nachrichten - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.186804
AFN 72.962441
ALL 94.259056
AMD 418.549568
ANG 2.041136
AOA 1045.418899
ARS 1684.10666
AUD 1.651889
AWG 2.052077
AZN 1.936931
BAM 1.955487
BBD 2.296633
BDT 140.257564
BGN 1.927676
BHD 0.429931
BIF 3386.658257
BMD 1.140043
BND 1.475464
BOB 7.880051
BRL 5.900179
BSD 1.140318
BTN 107.028002
BWP 15.497201
BYN 3.307171
BYR 22344.835632
BZD 2.293293
CAD 1.616934
CDF 2587.896628
CHF 0.921609
CLF 0.026661
CLP 1049.283409
CNY 7.756679
CNH 7.75807
COP 3917.562706
CRC 517.717184
CUC 1.140043
CUP 30.21113
CVE 110.246881
CZK 24.264557
DJF 203.065532
DKK 7.474507
DOP 66.999283
DZD 151.982519
EGP 56.441918
ERN 17.10064
ETB 183.847154
FJD 2.583449
FKP 0.86269
GBP 0.862499
GEL 3.015381
GGP 0.86269
GHS 12.857451
GIP 0.86269
GMD 83.222763
GNF 9991.401736
GTQ 8.699608
GYD 238.651244
HKD 8.940488
HNL 30.510119
HRK 7.535342
HTG 149.03616
HUF 354.147428
IDR 20362.5295
ILS 3.418629
IMP 0.86269
INR 107.599675
IQD 1493.761052
IRR 1567615.623977
ISK 143.998889
JEP 0.86269
JMD 179.591272
JOD 0.808274
JPY 184.289059
KES 147.646835
KGS 99.696357
KHR 4577.267802
KMF 494.7783
KPW 1026.03877
KRW 1752.35789
KWD 0.35298
KYD 0.95029
KZT 553.271497
LAK 25028.996263
LBP 102117.195723
LKR 383.315495
LRD 207.715883
LSL 18.744002
LTL 3.366249
LVL 0.689601
LYD 7.319797
MAD 10.692496
MDL 20.218652
MGA 4823.143858
MKD 61.655153
MMK 2393.462693
MNT 4081.628965
MOP 9.21159
MRU 45.50872
MUR 54.39115
MVR 17.613684
MWK 1977.361744
MXN 19.968844
MYR 4.661976
MZN 72.849226
NAD 18.744002
NGN 1572.118647
NIO 41.963287
NOK 11.298147
NPR 171.247607
NZD 2.018041
OMR 0.438339
PAB 1.140368
PEN 3.888378
PGK 5.004156
PHP 69.892026
PKR 317.357353
PLN 4.286982
PYG 6959.856149
QAR 4.156517
RON 5.241007
RSD 117.374218
RUB 88.643027
RWF 1670.006102
SAR 4.282215
SBD 9.179569
SCR 16.010093
SDG 684.025293
SEK 11.076665
SGD 1.475445
SHP 0.851157
SLE 28.272923
SLL 23906.128197
SOS 651.724331
SRD 42.546623
STD 23596.580793
STN 24.496082
SVC 9.97736
SYP 126.011304
SZL 18.733003
THB 38.047216
TJS 10.553828
TMT 3.990149
TND 3.379908
TOP 2.74495
TRY 53.154875
TTD 7.749624
TWD 36.346152
TZS 2989.981828
UAH 51.183064
UGX 4185.220382
USD 1.140043
UYU 45.774685
UZS 13697.40965
VES 707.684868
VND 29983.121282
VUV 136.749145
WST 3.175585
XAF 655.852087
XAG 0.019615
XAU 0.000282
XCD 3.081022
XCG 2.055071
XDR 0.816787
XOF 655.849211
XPF 119.331742
YER 272.042682
ZAR 18.768497
ZMK 10261.75068
ZMW 20.541075
ZWL 367.093263
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

O.Krasniqi--NZN