Zürcher Nachrichten - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.278489
AFN 76.301366
ALL 96.530556
AMD 444.389335
ANG 2.085119
AOA 1068.154458
ARS 1670.316609
AUD 1.75427
AWG 2.096704
AZN 1.984845
BAM 1.955415
BBD 2.345238
BDT 142.439297
BGN 1.957372
BHD 0.439074
BIF 3456.06653
BMD 1.164835
BND 1.508396
BOB 8.046379
BRL 6.313529
BSD 1.16437
BTN 104.690912
BWP 15.469884
BYN 3.34764
BYR 22830.773166
BZD 2.341828
CAD 1.611422
CDF 2599.912958
CHF 0.937162
CLF 0.02734
CLP 1072.545921
CNY 8.235507
CNH 8.234944
COP 4446.759008
CRC 568.78787
CUC 1.164835
CUP 30.868137
CVE 110.780379
CZK 24.198994
DJF 207.014999
DKK 7.469472
DOP 74.84113
DZD 151.385181
EGP 55.40272
ERN 17.47253
ETB 180.60972
FJD 2.630723
FKP 0.8723
GBP 0.873382
GEL 3.149553
GGP 0.8723
GHS 13.337819
GIP 0.8723
GMD 85.033396
GNF 10119.511721
GTQ 8.919242
GYD 243.610929
HKD 9.068302
HNL 30.667954
HRK 7.538703
HTG 152.42995
HUF 382.163892
IDR 19442.733022
ILS 3.76907
IMP 0.8723
INR 104.795933
IQD 1525.399284
IRR 49054.133779
ISK 149.006189
JEP 0.8723
JMD 186.373259
JOD 0.825914
JPY 180.836077
KES 150.617641
KGS 101.8653
KHR 4665.166047
KMF 491.560932
KPW 1048.343898
KRW 1715.709753
KWD 0.357232
KYD 0.970405
KZT 588.861385
LAK 25249.913875
LBP 104272.296288
LKR 359.159196
LRD 204.939598
LSL 19.73441
LTL 3.439456
LVL 0.704598
LYD 6.329752
MAD 10.752872
MDL 19.812009
MGA 5193.953775
MKD 61.627851
MMK 2446.083892
MNT 4131.091086
MOP 9.337359
MRU 46.433846
MUR 53.664406
MVR 17.950554
MWK 2019.093291
MXN 21.176696
MYR 4.788683
MZN 74.437324
NAD 19.73441
NGN 1689.139851
NIO 42.851552
NOK 11.767103
NPR 167.505978
NZD 2.016522
OMR 0.447885
PAB 1.164465
PEN 3.914028
PGK 4.940241
PHP 68.699705
PKR 326.441746
PLN 4.232667
PYG 8008.421228
QAR 4.244263
RON 5.093014
RSD 117.420109
RUB 89.113003
RWF 1694.158743
SAR 4.371861
SBD 9.5794
SCR 15.722146
SDG 700.652754
SEK 10.953705
SGD 1.509027
SHP 0.873928
SLE 26.791608
SLL 24426.013032
SOS 664.266196
SRD 44.99647
STD 24109.740275
STN 24.495171
SVC 10.187374
SYP 12881.033885
SZL 19.719113
THB 37.125677
TJS 10.683448
TMT 4.076924
TND 3.415727
TOP 2.804644
TRY 49.510866
TTD 7.893444
TWD 36.432793
TZS 2836.374505
UAH 48.875802
UGX 4119.187948
USD 1.164835
UYU 45.541022
UZS 13930.253805
VES 289.561652
VND 30705.060237
VUV 142.19158
WST 3.250066
XAF 655.824896
XAG 0.019865
XAU 0.000276
XCD 3.148026
XCG 2.098577
XDR 0.815408
XOF 655.723589
XPF 119.331742
YER 277.700931
ZAR 19.720255
ZMK 10484.920268
ZMW 26.920577
ZWL 375.076512
  • AEX

    -0.2800

    947.5

    -0.03%

  • BEL20

    16.5400

    5029.74

    +0.33%

  • PX1

    -7.3100

    8114.74

    -0.09%

  • ISEQ

    -5.1000

    12741.69

    -0.04%

  • OSEBX

    7.1500

    1632.45

    +0.44%

  • PSI20

    -40.3700

    8198.25

    -0.49%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -87.0000

    4263

    -2%

  • N150

    13.5900

    3685.24

    +0.37%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Weber--NZN