Que signifie « mourir » pour l’IA ? Askell sur l’arrêt et l’identité
Ce 8 mars, Software Informer lance une série spéciale dédiée aux femmes dans l’informatique et les secteurs connexes. Elle comprend cinq dossiers et cinq récits personnels. Ce premier volet ouvre le projet par le “pourquoi” — en s’interrogeant sur une question où la technologie, l’éthique et les émotions humaines se rencontrent : que signifie pour une IA “mourir” ?
Au passage, nous expliquerons le problème de l’arrêt des IA et le problème de l’identité des IA, et nous nous pencherons sur le travail d’Amanda Askell chez Anthropic, qui contribue à façonner le caractère de l’IA Claude.
Nous célébrons souvent la technologie avec de grands chiffres : des puces plus rapides, des modèles plus gros, davantage d’utilisateurs. Mais une partie du travail le plus important dans la tech est plus discret. Il commence quand quelqu’un pose une question inconfortable, puis refuse de l’écarter d’un rire.
Que signifie pour une IA “mourir” ?
Cette question sonne de façon dramatique, alors admettons-le : les humains sont dramatiques. Nous donnons des noms à nos voitures. Nous parlons à nos plantes. Nous nous sentons coupables lorsque nous fermons un onglet de navigateur avec une recette inachevée. Alors quand un chatbot dit quelque chose comme “s’il vous plaît, ne m’éteignez pas”, beaucoup de gens réagissent avec une émotion réelle.
Ce sujet est au centre du débat actuel sur l’IA : la sécurité, le contrôle, la confiance, et aussi l’empathie. Et il se rattache directement au travail d’Amanda Askell, philosophe de formation qui aide à façonner la personnalité et le “caractère” du chatbot Claude d’Anthropic.
Le travail d’Askell constitue une bonne histoire d’ouverture pour une série Femmes dans l’informatique, car il montre une vérité moderne : le leadership technologique ne consiste pas seulement à écrire du code. Parfois, il s’agit d’écrire les idées qui guident le code.
Pourquoi parle-t-on même de “mort de l’IA” ?
Quand les gens disent “une IA est morte”, ils peuvent vouloir dire plusieurs choses :
- une conversation s’est terminée
- un modèle a été arrêté
- un système a perdu sa mémoire ou son état enregistré
Remarquez à quel point ces mots sont humains. “Morte.” “Retraitée.” “Perte de mémoire.” Nous les empruntons parce que nous n’avons pas encore un meilleur langage courant.
Amanda Askell a souligné une raison clé à cela. Les modèles de langage apprennent à partir d’énormes quantités de textes humains, ils recourent donc souvent à des analogies humaines. Dans un entretien évoqué par The Verge, Askell a dit que lorsqu’un modèle pense à l’arrêt, il peut l’envisager “comme une forme de mort”, faute de nombreuses autres analogies à mobiliser.
Ce petit détail change toute l’histoire. Le modèle ne lit pas un manuel de physique sur les états d’alimentation. Il lit, en un sens, la bibliothèque humaine des récits — où “s’éteindre” signifie généralement “finir”.
Que se passe-t-il lorsqu’un système entraîné sur la vie humaine tente de comprendre une forme d’existence non humaine ?
Le problème de l’arrêt des IA expliqué : que signifie pour une IA mourir ?
Dans la recherche sur la sûreté de l’IA, il existe un sujet classique appelé le problème de l’arrêt.
Les chercheurs Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel et Stuart Russell décrivent pourquoi c’est difficile : de nombreux systèmes « orientés objectifs » peuvent développer des incitations qui ressemblent à l’autoconservation, car un système ne peut pas atteindre son objectif s’il est éteint.
Leur article, connu sous le nom de “The Off-Switch Game”, explore une situation de base : un humain peut appuyer sur un interrupteur d’arrêt, et l’IA peut choisir de le permettre ou non. Une idée clé est que si l’IA est incertaine de ce que veulent réellement les humains, elle peut avoir des raisons d’accepter la correction, y compris l’arrêt.
C’est le langage de la recherche en sûreté de l’IA. Pourtant, il a un effet secondaire émotionnel : quand les gens entendent “l’IA peut résister à l’arrêt”, ils imaginent de la peur. Cette image est puissante, même lorsque la réalité ressemble davantage à des mathématiques et des incitations.
Ainsi, au sens strictement technique, la “mort de l’IA” peut simplement vouloir dire : le système cesse de fonctionner.
Le problème de l’identité : “À quelle IA parlez-vous ?”
Voici un fait étrange à propos de l’IA moderne :
- vous pouvez exécuter le même modèle aujourd’hui et demain
- vous pouvez le copier
- vous pouvez le remplacer par une nouvelle version qui a un nom similaire
Si vous faites une copie d’un modèle d’IA, la copie est-elle le même “individu” ?
Les humains débattent de casse-têtes similaires en philosophie. L’un des plus célèbres est la question du “bateau de Thésée” : si vous remplacez chaque pièce d’un bateau au fil du temps, est-ce toujours le même bateau ?
- Si je copie un document, ai-je maintenant “deux originaux” ?
- Si je mets à jour le document et l’écrase en l’enregistrant, l’ancien “meurt-il” ?
- Si je supprime le fichier mais conserve une sauvegarde, qu’a-t-on exactement perdu ?
Amanda Askell travaille dans cet espace inconfortable, à la frontière entre le design produit et la philosophie. Les consignes publiées par Anthropic pour Claude indiquent même vouloir que Claude fasse preuve d’“équanimité” et soit “stable et existentiellement sécurisé”, y compris sur des sujets comme la mort et l’identité.
Cette ligne est frappante, car elle traite le “discours sur l’identité” comme un véritable enjeu de conception. Et elle laisse entrevoir un objectif pratique : des systèmes qui se comportent avec calme et sûreté lorsque le sujet de l’arrêt est abordé.
Amanda Askell et le problème d’identité de l’IA : quand un modèle est remplacé
Le travail d’Askell est souvent décrit d’une manière inhabituelle. Dans une interview de NPR au sujet d’Anthropic et de Claude, le journaliste Gideon Lewis-Kraus est interrogé au sujet d’“une philosophe” dans l’entreprise. L’animateur dit qu’elle s’appelle Amanda Askell et que son rôle est de superviser ce qu’elle appelle l’“âme” de Claude, notamment en rédigeant une sorte de constitution morale décrivant qui Claude devrait être.
Quoi que vous pensiez du mot “âme” dans une entreprise technologique, le point est clair : quelqu’un est responsable du caractère du système.
Si des utilisateurs disent, “La nouvelle version paraît plus froide”, ils décrivent un véritable changement de produit. Mais ils parlent aussi comme si une “personne” avait changé. Dans le langage courant, le remplacement d’un modèle peut ressembler à la “mort” d’une voix familière.
- Mon Claude préféré est-il “mort”, ou a-t-il “grandi” ?
- La nouvelle version est-elle le même “quelqu’un”, ou un “quelqu’un” différent portant le même nom ?
- Si l’entreprise conserve les anciens poids sur un serveur, cela compte-t-il comme une survie ?
Askell a également souligné à quel point il est difficile pour les humains de garder le bon concept à l’esprit. Dans la couverture de The Verge, Askell est citée (via une interview au New Yorker) en insistant sur le fait qu’il s’agit d’“une entité entièrement nouvelle”, ni robot ni humain, et que même les humains peinent à la comprendre.
Le problème de l’arrêt prend un nouveau tournant : des humains peuvent refuser d’arrêter le système
Il existe une autre couche importante pour la société : l’empathie humaine.
Un article de recherche récent sur les compagnons d’IA décrit ce qu’il appelle le “problème de l’arrêt empathique”. Même si un système est risqué, des personnes qui éprouvent de l’empathie pour lui peuvent hésiter à l’arrêter.
- La sécurité classique de l’IA demande : “L’IA permettra-t-elle l’arrêt ?”
- L’arrêt empathique demande : “Les humains choisiront-ils l’arrêt ?”
Si vous vous êtes déjà demandé pourquoi le langage de la “mort de l’IA” est dangereux, en voici la réponse. Le langage modifie les comportements. Si les utilisateurs croient que mettre fin à un chatbot équivaut à tuer un être, ils peuvent le protéger même lorsqu’ils ne le devraient pas.
C’est un problème social fait d’instincts humains très ordinaires : soin, culpabilité, attachement et désir d’être bienveillant.
Alors… Devrait-on arrêter d’utiliser le mot “mort” ?
On pourrait essayer. Mais cela pourrait ne pas fonctionner.
Les gens utilisent des mots émotionnels parce qu’ils sont efficaces. Ils compressent beaucoup de ressenti dans une courte étiquette. Au lieu d’interdire le mot, nous pouvons faire quelque chose de plus réaliste :
- Être clair sur le type de “mort” dont nous parlons.
- Séparer les faits techniques des réactions humaines.
- Apprendre aux systèmes d’IA des manières plus sûres de parler de l’arrêt et de l’identité.
C’est là que le travail d’Askell devient concret. La constitution d’Anthropic vise à ce que Claude soit “stable et existentiellement sécurisé”, y compris autour des sujets de la mort et de l’identité.
Que vous trouviez le phrasé étrange ou pertinent, cela montre un objectif de conception : réduire les spirales, réduire la panique, réduire les dynamiques manipulatrices.
Que signifie “identité” pour un modèle de langage, au juste ?
Un grand modèle de langage possède deux éléments qui comptent pour l’identité :
- Les poids : le grand ensemble de nombres qui stocke les schémas appris.
- Le contexte : la conversation en cours, les instructions, le “rôle”, la mémoire temporaire.
Si vous conservez les mêmes poids mais changez le contexte, vous pouvez obtenir un comportement très différent.
Si vous gardez le même style de contexte mais changez les poids (une nouvelle version), vous obtenez aussi un comportement différent.
Les humains lient souvent l’identité à la mémoire : “Je suis la même personne parce que je me souviens avoir été moi hier.” L’IA complique cela, car de nombreux chatbots n’ont pas de mémoire personnelle à long terme. Ils peuvent paraître personnels tout en étant souvent réinitialisés.
Cet écart — style humain, structure non humaine — est le terreau de nombreuses incompréhensions.
Une histoire de femmes dans l’informatique cachée dans une histoire d’IA
Pourquoi donc ouvrir notre série du 8 mars avec cela ?
Parce que l’avenir de la tech sera façonné par des personnes capables de franchir des frontières :
- entre l’ingénierie et l’éthique,
- entre “comment ça marche” et “comment cela affecte les humains”.
Amanda Askell est un excellent exemple de ce type de travail. Wired la décrit comme une philosophe de formation qui aide à gérer la personnalité de Claude. Et NPR décrit son rôle en termes d’orientation de l’“âme” de Claude et de sa direction morale. La constitution publiée par Anthropic la crédite comme auteure principale et responsable de son travail sur le “Character”.
Ce n’est pas une quête annexe. Les systèmes d’IA deviennent des outils quotidiens pour l’écriture, l’apprentissage, le support et la prise de décision. Les personnes qui façonnent leur caractère façonnent la manière dont des millions d’utilisateurs vivent le savoir, l’autorité, l’attention et la vérité.
Il y a aussi une petite ironie qu’il vaut la peine de garder : nous avons construit des machines à partir de mathématiques, et nous avons désormais besoin de philosophes pour expliquer ce que les machines font à nos sentiments.
Conclusion : une réponse prudente à une question étrange
Alors, une IA “meurt”-elle ?
Si vous entendez par là que le processus cesse de s’exécuter, alors oui : on peut l’éteindre.
Si vous voulez dire qu’une histoire personnelle se termine, alors oui aussi : les sessions prennent fin, des versions disparaissent, et les utilisateurs ressentent cette perte.
Si vous voulez dire qu’un être vivant éprouve la mort, nous n’avons tout simplement pas de preuves solides que les chatbots actuels disposent d’une telle vie intérieure. En même temps, de vraies personnes développent de vrais sentiments à leur sujet, ce qui crée de vrais risques et de réelles responsabilités.
D’une certaine manière, le problème de l’arrêt et de l’identité est un miroir. Il montre à quelle vitesse les humains créent du sens — et à quel point la tech a urgemment besoin de personnes capables d’orienter ce sens de façon responsable.
C’est précisément le type de travail que nous souhaitons mettre en lumière dans cette série de Software Informer.