Zürcher Nachrichten - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.306153
AFN 75.0429
ALL 95.503739
AMD 434.75432
ANG 2.098709
AOA 1076.390828
ARS 1633.24778
AUD 1.628526
AWG 2.110569
AZN 1.997971
BAM 1.957785
BBD 2.362126
BDT 143.899979
BGN 1.955914
BHD 0.44281
BIF 3489.474751
BMD 1.172539
BND 1.496038
BOB 8.103802
BRL 5.808644
BSD 1.172804
BTN 111.252582
BWP 15.938311
BYN 3.309523
BYR 22981.755751
BZD 2.358712
CAD 1.592953
CDF 2720.28988
CHF 0.91605
CLF 0.026783
CLP 1054.112588
CNY 8.006387
CNH 8.009617
COP 4288.442525
CRC 533.195048
CUC 1.172539
CUP 31.072272
CVE 110.746729
CZK 24.365813
DJF 208.384014
DKK 7.468372
DOP 69.770598
DZD 155.365983
EGP 62.894658
ERN 17.588078
ETB 184.088973
FJD 2.570327
FKP 0.863714
GBP 0.862002
GEL 3.142861
GGP 0.863714
GHS 13.136953
GIP 0.863714
GMD 85.595732
GNF 10289.026269
GTQ 8.959961
GYD 245.356495
HKD 9.184382
HNL 31.213432
HRK 7.537125
HTG 153.631453
HUF 364.824102
IDR 20325.193765
ILS 3.451755
IMP 0.863714
INR 111.286226
IQD 1536.025512
IRR 1540715.666567
ISK 143.847483
JEP 0.863714
JMD 183.766277
JOD 0.831376
JPY 183.590271
KES 151.433806
KGS 102.503912
KHR 4704.815418
KMF 492.466605
KPW 1055.284674
KRW 1728.0057
KWD 0.36031
KYD 0.977362
KZT 543.223189
LAK 25772.39793
LBP 105000.828342
LKR 374.82671
LRD 215.600573
LSL 19.53494
LTL 3.462202
LVL 0.709257
LYD 7.446066
MAD 10.847448
MDL 20.206948
MGA 4866.035425
MKD 61.633886
MMK 2461.733132
MNT 4195.16771
MOP 9.463379
MRU 46.86681
MUR 55.144932
MVR 18.121629
MWK 2041.980281
MXN 20.470224
MYR 4.655421
MZN 74.929587
NAD 19.534934
NGN 1613.390048
NIO 43.044332
NOK 10.870375
NPR 177.995572
NZD 1.986849
OMR 0.451129
PAB 1.172774
PEN 4.112684
PGK 5.087352
PHP 71.847345
PKR 326.874482
PLN 4.253857
PYG 7213.019006
QAR 4.272149
RON 5.203848
RSD 117.378833
RUB 87.908248
RWF 1713.665104
SAR 4.396996
SBD 9.429684
SCR 16.118093
SDG 704.113715
SEK 10.846455
SGD 1.493936
SHP 0.875418
SLE 28.848748
SLL 24587.542811
SOS 669.519913
SRD 43.920994
STD 24269.180819
STN 24.869543
SVC 10.262409
SYP 129.594802
SZL 19.534925
THB 38.122791
TJS 11.000548
TMT 4.109748
TND 3.378963
TOP 2.823192
TRY 52.931326
TTD 7.960816
TWD 37.086813
TZS 3054.463338
UAH 51.532291
UGX 4409.902668
USD 1.172539
UYU 46.771998
UZS 14011.836168
VES 573.304233
VND 30903.426254
VUV 137.95079
WST 3.183664
XAF 656.670246
XAG 0.01556
XAU 0.000254
XCD 3.168845
XCG 2.113677
XDR 0.815653
XOF 656.621982
XPF 119.331742
YER 279.771908
ZAR 19.594648
ZMK 10554.258277
ZMW 21.901789
ZWL 377.556938
  • AEX

    16.9500

    1014.09

    +1.7%

  • BEL20

    72.8600

    5352.67

    +1.38%

  • PX1

    42.7800

    8114.84

    +0.53%

  • ISEQ

    167.7500

    12593.36

    +1.35%

  • OSEBX

    21.5700

    2018.63

    +1.08%

  • PSI20

    135.3800

    9344.96

    +1.47%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    71.6400

    3902.45

    +1.87%

  • N150

    52.5100

    4154.58

    +1.28%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Weber--NZN