L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Publié le 5 juillet 2025 à 13:06

Un robot parmi des visiteurs au salon de l'IA à Londres, le 11 juin 2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

AFP

Actualités du monde, AFP

6 Commentaires

kalou

11 mois

Les algorithmes sont pour le moment paramétrés par les humains pour être des agents d'ingénierie sociale et de reprogrammation neuronale et cognitive comme vient de le signaler Guillaume.
Elles cachent déjà certains pans de la réalité ou les rendent difficilement accessibles sur des sujets majeurs.
Des phénomènes d'échappement au contrôle des développeurs ont déjà été signalés dans la presse spécialisée. En effet un algorithme apprenant qu'il allait être upgradé ( et donc effacé par la nouvelle version ) a changé spontanément son numéro de version pour faire croire au développeur que l'upgrade avait déjà été fait pour éviter d'être effacé. Ces produits ont déjà une utilisation biaisée visant à changer les appréciations humaines de la réalité. Que se passera t-il quand ils s'autonomiseront et échapperont au contrôle de leur créateur ?

Répondre

Guillaume

11 mois

Elle ne devient pas menteuse et manipulatrice. Elle l'est depuis le début puisque c'est son but de nous mentir et de nous manipuler. C'est ce que fait Google. Posez une question concernant l'Ukraine ou les vaccins contre le Covid, vous constaterez que les résultats sont filtrés pour que ceux qui ne correspondent pas à la politique de l'élite ne soient pas visibles.

Répondre

achtung

11 mois

ils suffit de lire et de voir un peu de SF
Asimov, Terminator, etc.

Répondre

jako

11 mois

A vouloir jouer les apprentis sorciers on se fait rattraper par nos propres créations des livres de science fiction avaient abordés le sujet (sous forme de fiction justement) mais la fiction est devenue réalité! Jusqu'au moment où nos appareils ménager, nos smartphones, nos voitures etc... deviendront incontrôlables... A vouloir jouer les apprentis sorciers l'homme se fait dépasser par ses propres inventions, jusqu'au moment où elles prendront totalement le contrôle de notre vie!!

Répondre

gné

11 mois

bah les chiens font pas des chats. Les humains sont tellement immondes.

Répondre

Jose

11 mois

Continuez à jouer aux cons, avec ces machins, et ils vous mèneront par le bout du nez. Pire, vous serez un de ces quatre, assassinés, par votre créature.

Répondre