Zürcher Nachrichten - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

EUR -
AED 4.228705
AFN 73.118499
ALL 96.103901
AMD 434.081157
ANG 2.061193
AOA 1055.880308
ARS 1597.90835
AUD 1.677865
AWG 2.072611
AZN 1.953004
BAM 1.956906
BBD 2.319081
BDT 141.279852
BGN 1.968185
BHD 0.43404
BIF 3420.2886
BMD 1.151451
BND 1.482719
BOB 7.985756
BRL 6.032105
BSD 1.151446
BTN 109.143271
BWP 15.876041
BYN 3.427452
BYR 22568.435737
BZD 2.315689
CAD 1.599498
CDF 2628.196196
CHF 0.919439
CLF 0.026922
CLP 1063.042764
CNY 7.958655
CNH 7.969226
COP 4230.453279
CRC 534.695246
CUC 1.151451
CUP 30.513446
CVE 110.335507
CZK 24.525959
DJF 205.031433
DKK 7.47238
DOP 68.537249
DZD 153.651843
EGP 60.778062
ERN 17.271762
ETB 177.994138
FJD 2.599283
FKP 0.866711
GBP 0.86805
GEL 3.085921
GGP 0.866711
GHS 12.616624
GIP 0.866711
GMD 84.633244
GNF 10095.574529
GTQ 8.812708
GYD 241.033559
HKD 9.01799
HNL 30.570615
HRK 7.536475
HTG 150.930719
HUF 389.882386
IDR 19556.240437
ILS 3.612815
IMP 0.866711
INR 107.314175
IQD 1508.372185
IRR 1512142.7665
ISK 143.597324
JEP 0.866711
JMD 181.238501
JOD 0.816389
JPY 183.986924
KES 149.562106
KGS 100.694589
KHR 4611.486276
KMF 492.820691
KPW 1036.309131
KRW 1739.410315
KWD 0.354543
KYD 0.959555
KZT 556.661878
LAK 25043.045647
LBP 103109.525503
LKR 362.703426
LRD 211.294104
LSL 19.771975
LTL 3.399935
LVL 0.696501
LYD 7.349995
MAD 10.76191
MDL 20.224431
MGA 4798.649697
MKD 61.675663
MMK 2416.702495
MNT 4111.995092
MOP 9.290472
MRU 45.973385
MUR 53.853729
MVR 17.789674
MWK 1996.50242
MXN 20.837356
MYR 4.631082
MZN 73.63564
NAD 19.772233
NGN 1590.9366
NIO 42.373398
NOK 11.22022
NPR 174.612901
NZD 2.008729
OMR 0.443681
PAB 1.151466
PEN 4.010967
PGK 4.975747
PHP 69.907997
PKR 321.353848
PLN 4.283374
PYG 7528.091448
QAR 4.1982
RON 5.097815
RSD 117.467923
RUB 93.858843
RWF 1681.413833
SAR 4.320822
SBD 9.26001
SCR 17.330464
SDG 692.022259
SEK 10.898769
SGD 1.483022
SHP 0.863886
SLE 28.267808
SLL 24145.360077
SOS 658.057648
SRD 43.2957
STD 23832.70685
STN 24.513536
SVC 10.074826
SYP 127.267156
SZL 19.769831
THB 37.813065
TJS 11.002483
TMT 4.030078
TND 3.39494
TOP 2.772417
TRY 51.200444
TTD 7.823388
TWD 36.777085
TZS 2970.7434
UAH 50.469568
UGX 4289.554854
USD 1.151451
UYU 46.609582
UZS 14042.119569
VES 538.79648
VND 30321.729719
VUV 137.466441
WST 3.195833
XAF 656.3137
XAG 0.016374
XAU 0.000256
XCD 3.111854
XCG 2.0752
XDR 0.816368
XOF 656.3137
XPF 119.331742
YER 274.738212
ZAR 19.724796
ZMK 10364.442021
ZMW 21.675063
ZWL 370.766689
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: Kirill Kudryavtsev - AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

O.Krasniqi--NZN