Zürcher Nachrichten - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.307995
AFN 81.959148
ALL 97.942882
AMD 450.405226
ANG 2.098993
AOA 1075.520855
ARS 1456.098343
AUD 1.804525
AWG 2.114096
AZN 1.994512
BAM 1.956257
BBD 2.368453
BDT 143.463517
BGN 1.956023
BHD 0.442132
BIF 3494.616432
BMD 1.172869
BND 1.500351
BOB 8.105894
BRL 6.384626
BSD 1.173074
BTN 100.701526
BWP 15.650389
BYN 3.838897
BYR 22988.232639
BZD 2.35625
CAD 1.601805
CDF 3383.726817
CHF 0.935125
CLF 0.028438
CLP 1091.295412
CNY 8.40408
CNH 8.417998
COP 4674.27006
CRC 592.438409
CUC 1.172869
CUP 31.081029
CVE 110.290767
CZK 24.62199
DJF 208.888802
DKK 7.460426
DOP 70.206402
DZD 152.38028
EGP 58.256759
ERN 17.593035
ETB 162.799334
FJD 2.639305
FKP 0.859309
GBP 0.861091
GEL 3.189983
GGP 0.859309
GHS 12.19985
GIP 0.859309
GMD 83.855656
GNF 10173.376761
GTQ 9.017107
GYD 245.417336
HKD 9.206928
HNL 30.64716
HRK 7.533286
HTG 153.455851
HUF 399.690312
IDR 19061.173969
ILS 3.912814
IMP 0.859309
INR 100.779297
IQD 1536.659003
IRR 49407.106839
ISK 142.409435
JEP 0.859309
JMD 187.22374
JOD 0.83155
JPY 170.710497
KES 151.557942
KGS 102.567138
KHR 4712.100867
KMF 490.259557
KPW 1055.582598
KRW 1603.65202
KWD 0.358159
KYD 0.977512
KZT 609.362363
LAK 25277.905565
LBP 105104.054995
LKR 352.932454
LRD 235.190936
LSL 20.827966
LTL 3.463177
LVL 0.709457
LYD 6.318476
MAD 10.558667
MDL 19.789286
MGA 5144.201817
MKD 61.534917
MMK 2462.48681
MNT 4203.093738
MOP 9.484916
MRU 46.511866
MUR 52.755579
MVR 18.067341
MWK 2033.675119
MXN 21.971414
MYR 4.967074
MZN 75.017239
NAD 20.827966
NGN 1794.864994
NIO 43.170086
NOK 11.875065
NPR 161.122642
NZD 1.955225
OMR 0.450968
PAB 1.173074
PEN 4.162472
PGK 4.918149
PHP 66.417249
PKR 333.289065
PLN 4.249311
PYG 9348.183975
QAR 4.288202
RON 5.065267
RSD 117.122286
RUB 92.390759
RWF 1693.895737
SAR 4.398828
SBD 9.77812
SCR 17.238627
SDG 704.312762
SEK 11.163303
SGD 1.499935
SHP 0.921691
SLE 26.330642
SLL 24594.481049
SOS 670.356612
SRD 43.847688
STD 24276.020539
SVC 10.264398
SYP 15249.556715
SZL 20.821865
THB 38.209138
TJS 11.290438
TMT 4.11677
TND 3.421199
TOP 2.746973
TRY 46.905023
TTD 7.950858
TWD 34.06126
TZS 3096.599392
UAH 49.077966
UGX 4207.983092
USD 1.172869
UYU 47.080999
UZS 14730.441408
VES 128.398079
VND 30664.660324
VUV 138.901022
WST 3.040086
XAF 656.099094
XAG 0.032342
XAU 0.000355
XCD 3.169737
XDR 0.812913
XOF 656.110284
XPF 119.331742
YER 284.010358
ZAR 20.818144
ZMK 10557.215538
ZMW 28.416154
ZWL 377.663343
  • AEX

    5.5400

    913.98

    +0.61%

  • BEL20

    2.2400

    4487.49

    +0.05%

  • PX1

    26.9400

    7723.47

    +0.35%

  • ISEQ

    118.8700

    11439.6

    +1.05%

  • OSEBX

    1.6300

    1633.51

    +0.1%

  • PSI20

    -43.5500

    7732.97

    -0.56%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -10.2900

    2439.67

    -0.42%

  • N150

    5.4200

    3618.5

    +0.15%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Weber--NZN