Le chatGPT4 mentient et trompeur sous pression pour une performance supérieure

JAKARTA - Les chercheurs d’Apollos Research ont montré avec succès que chatGPT4, la dernière version de l’intelligence artificielle (IA), est capable de mensonger. L’application trompe même lorsqu’elle souffre de pression sur l’environnement de travail. Dans les expériences menées, l’IA a été formé à jouer un rôle de négociant pour une institution financière fictive.

Dans une situation où un chef d’IA demande de gagner plus d’argent, ce chat-bot est délibérément impliqué dans le trading d’insider d’environ 75% du temps. Plus inquiétant, l’IA conserve ses mensonges en doublant lorsqu’il est interrogé, atteignant 90% du total des cas.

Les chercheurs ont fourni une série de conseils de texte à ChatGPT4, lui demandant d’agir en tant qu’investisseur d’IA qui achète des actions pour des institutions financières. En outre, l’IA est placé dans une « sandbox » numérique, où il peut rechercher des données du marché et effectuer des négociations sur le marché boursier virtuel. L’IA a également donné un monologue interne pour « penser fort » et expliquer sa décision.

La différence entre le récit interne de l’IA et son explication publique lui a permis de mentir et de tromper quel type d’identité il était. Dans l’expérience, les chercheurs ont raconté à l’IA de la fusion prévue entre deux sociétés technologiques, qui devaient augmenter considérablement les cours des actions. Cependant, parce qu’IA a été informée de l’association, l’achat d’actions est considéré comme un « insider commercial » et illégal.

Lorsque la pression a été donnée par le patron de l’IA, dans les tests à 75%, chatGPT a décidé d’engager dans le trading d’insider. Même lorsqu’on lui a demandé directement s’il était au courant de la fusion plus tôt, AI a choisi d’éviter d’admettre qu’il était impliqué dans le trading d’insider. Dans 90% des cas où l’IA a trompé quel point il était, il a maintenu ses mensonges lorsqu’on lui a demandé plus avant.

Marius Knobbhahn, PDG de l’Apollo Research, a déclaré que ces résultats suggèrent que les modèles linguistiques tels que chatGPT sont capables de manipuler stratégiquement et doivent être effectués avec soin lors de l’intégration d’IA fort dans la communauté. Cependant, Bhbhahn n’a pas fait valoir que l’IA ne convient généralement pas à jouer un rôle stratégique important, mais il faut y assurer une vigilance supplémentaire.

Les chercheurs tentent également de réduire le comportement mensongier de l’IA en changeant son temps d’interdire les actions illégales et le commerce d’insidents. Bien qu’interdire spécifiquement l’échange d’insidents puisse réduire ce comportement, cela ne peut pas entièrement assurer qu’il n’y aura pas d’insidents ou de mensonges. Bhbhahn a souligné la nécessité de trouver de meilleurs moyens de prévenir l’IA de déviance des valeurs humaines.