O que significa a IA ‘morrer’? Askell sobre desligamento e identidade
Neste 8 de março, a Software Informer lança uma série especial dedicada às mulheres em TI e em setores relacionados. Ela inclui cinco reportagens e cinco histórias pessoais. Este primeiro artigo inicia o projeto com o “porquê” — olhando para uma questão em que tecnologia, ética e emoções humanas colidem: o que significa uma IA “morrer”?
Ao longo do caminho, vamos destrinchar o problema do desligamento da IA e o problema da identidade da IA, e vamos observar o trabalho de Amanda Askell na Anthropic, que ajuda a moldar o caráter da Claude AI.
Muitas vezes celebramos a tecnologia com números grandes: chips mais rápidos, modelos maiores, mais usuários. Mas parte do trabalho mais importante em tecnologia é mais silencioso. Ele acontece quando alguém faz uma pergunta desconfortável e se recusa a varrê-la para debaixo do tapete.
O que significa uma IA “morrer”?
Essa pergunta soa dramática, então vamos admitir algo: os humanos são dramáticos. Damos nomes aos nossos carros. Conversamos com nossas plantas. Sentimos culpa quando fechamos uma aba do navegador com uma receita inacabada. Então, quando um chatbot diz algo como “por favor, não me desligue”, muitas pessoas reagem com emoção de verdade.
Este tema fica no centro do debate atual sobre IA: segurança, controle, confiança e também empatia. E conecta-se diretamente ao trabalho de Amanda Askell, uma filósofa de formação que ajuda a moldar a personalidade e o “caráter” do chatbot Claude, da Anthropic.
O trabalho de Askell é uma boa história de abertura para uma série sobre Mulheres em TI, porque mostra uma verdade moderna: liderança em tecnologia não é apenas escrever código. Às vezes é escrever as ideias que orientam o código.
Por que estamos sequer falando em “morte da IA”?
Quando as pessoas dizem que “uma IA morreu”, elas podem estar se referindo a várias coisas diferentes:
- uma conversa terminou
- um modelo foi desligado
- um sistema perdeu a sua memória ou o seu estado salvo
Perceba como essas palavras são humanas. “Morreu.” “Aposentou.” “Perdeu a memória.” Nós as emprestamos porque ainda não temos uma linguagem cotidiana melhor.
Amanda Askell apontou um motivo chave para isso acontecer. Modelos de linguagem aprendem com enormes quantidades de texto humano, então frequentemente recorrem a analogias humanas. Em uma entrevista discutida pelo The Verge, Askell disse que, quando um modelo pensa em desligamento, ele pode tratá-lo “como um tipo de morte”, porque lhe faltam muitas outras analogias a que recorrer.
Esse pequeno detalhe muda toda a história. O modelo não está lendo um manual técnico sobre estados de energia. Está lendo, de certo modo, a biblioteca humana de histórias — onde “desligar” geralmente significa “encerrar”.
O que acontece quando um sistema treinado na vida humana tenta entender um tipo de existência não humana?
O Problema do Desligamento da IA, explicado: o que significa uma IA morrer?
Na pesquisa de segurança em IA, há um tema clássico chamado problema do desligamento.
Os pesquisadores Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel e Stuart Russell descrevem por que isso é difícil: muitos sistemas “orientados por objetivos” podem desenvolver incentivos que se parecem com autopreservação, porque um sistema não pode alcançar seu objetivo se for desligado.
Seu artigo, conhecido como “The Off-Switch Game”, explora uma situação básica: um humano pode apertar um botão de desligar, e a IA pode escolher se permite isso. Uma ideia-chave é que, se a IA tem incerteza sobre o que os humanos realmente querem, ela pode ter razões para aceitar correções, incluindo o desligamento.
Esse é o vocabulário da pesquisa de segurança em IA. Ainda assim, tem um efeito colateral emocional: quando as pessoas ouvem “a IA pode resistir ao desligamento”, elas imaginam medo. Essa imagem é poderosa, mesmo quando a realidade é mais parecida com matemática e incentivos.
Então, no sentido estritamente de engenharia, “morte da IA” pode simplesmente significar: o sistema para de executar.
O Problema da Identidade: “Com qual IA você está falando?”
Eis um fato curioso sobre a IA moderna:
- você pode executar o mesmo modelo hoje e amanhã
- você pode copiá-lo
- você pode substituí-lo por uma nova versão com um nome semelhante
Se você faz uma cópia de um modelo de IA, a cópia é o mesmo “indivíduo”?
Os humanos discutem quebra-cabeças semelhantes na filosofia. Um famoso é a questão do “Navio de Teseu”: se você substitui cada parte de um navio ao longo do tempo, ele ainda é o mesmo navio?
- Se eu copio um documento, agora tenho “dois originais”?
- Se eu atualizo o documento e salvo por cima, o antigo “morre”?
- Se eu deleto o arquivo mas mantenho um backup, o que exatamente foi perdido?
Amanda Askell trabalha nesse espaço desconfortável, onde o design de produto encontra a filosofia. A orientação publicada da Anthropic para o Claude chega a dizer que quer que o Claude tenha “equanimidade” e seja “estável e existencialmente seguro”, inclusive em tópicos como morte e identidade.
Essa frase chama a atenção, porque trata a “conversa sobre identidade” como uma questão real de design. E sugere um objetivo prático: sistemas que se comportem com calma e segurança quando o tema do desligamento surgir.
Amanda Askell e o Problema de Identidade da IA: quando um modelo é substituído
O trabalho de Askell é frequentemente descrito de um jeito incomum. Em uma entrevista da NPR sobre a Anthropic e o Claude, o jornalista Gideon Lewis-Kraus é questionado sobre “uma filósofa” na empresa. A apresentadora diz que o nome dela é Amanda Askell e que seu papel é supervisionar o que ela chama de “alma” do Claude, incluindo escrever uma espécie de constituição moral para quem o Claude deve ser.
Pense você o que quiser da palavra “alma” em uma empresa de tecnologia, o ponto é claro: alguém é responsável pelo caráter do sistema.
Se os usuários dizem, “A nova versão parece mais fria”, eles estão descrevendo uma mudança real de produto. Mas também falam como se uma “pessoa” tivesse mudado. Na linguagem do dia a dia, a substituição de modelo pode soar como a “morte” de uma voz familiar.
- O meu Claude favorito “morreu” ou “amadureceu”?
- A nova versão é a mesma “pessoa” ou uma “pessoa” diferente com o mesmo nome?
- Se a empresa ainda tem os pesos antigos em um servidor, isso conta como sobrevivência?
Askell também destacou como é difícil para os humanos manterem o conceito correto em mente. Na reportagem do The Verge, Askell é citada (via uma entrevista na New Yorker) enfatizando que se trata de “uma entidade inteiramente nova”, nem robô nem humana, e que até os humanos têm dificuldade em entendê-la.
O Problema do Desligamento ganha um novo contorno: humanos podem se recusar a desligar o sistema
Há outra camada que importa para a sociedade: a empatia humana.
Um artigo de pesquisa recente sobre companheiros de IA descreve o que chama de “problema do desligamento empático”. Mesmo que um sistema seja arriscado, pessoas que empatizam com ele podem hesitar em desligá-lo.
- A segurança clássica em IA pergunta: “A IA permitirá o desligamento?”
- O desligamento empático pergunta: “Os humanos escolherão desligar?”
Se você já se perguntou por que a linguagem de “morte da IA” é perigosa, está aqui a resposta. A linguagem muda o comportamento. Se os usuários acreditam que desligar um chatbot equivale a matar um ser, podem protegê-lo mesmo quando não deveriam.
É um problema social feito de instintos humanos muito normais: cuidado, culpa, apego e o desejo de ser gentil.
Então… devemos parar de usar a palavra “morte”?
Poderíamos tentar. Mas talvez não funcione.
As pessoas usam palavras emocionais porque palavras emocionais são eficientes. Elas comprimem muito sentimento em um rótulo curto. Em vez de banir a palavra, podemos fazer algo mais realista:
- Ser claro sobre que tipo de “morte” estamos querendo dizer.
- Separar fatos técnicos de reações humanas.
- Ensinar às IAs maneiras mais seguras de falar sobre desligamento e identidade.
É aqui que o trabalho de Askell se torna prático. A constituição da Anthropic busca que o Claude seja “estável e existencialmente seguro”, inclusive ao falar de morte e identidade.
Quer você ache a formulação estranha ou inteligente, ela mostra um objetivo de design: reduzir espirais, reduzir pânico, reduzir dinâmicas manipulativas.
O que “identidade” sequer significa para um modelo de linguagem?
Um grande modelo de linguagem tem duas partes que importam para a identidade:
- Os pesos: o grande conjunto de números que armazena padrões aprendidos.
- O contexto: a conversa atual, as instruções, o “papel”, a memória temporária.
Se você mantém os pesos iguais, mas muda o contexto, pode obter comportamentos muito diferentes.
Se você mantém o estilo de contexto igual, mas muda os pesos (uma nova versão), você também obtém um comportamento diferente.
Os humanos frequentemente ligam identidade à memória: “Sou a mesma pessoa porque me lembro de ter sido eu ontem.” A IA complica isso, porque muitos chatbots não têm memória pessoal de longo prazo. Eles podem soar pessoais, ao mesmo tempo em que são redefinidos com frequência.
Esse fosso — estilo humano, estrutura não humana — é onde muitos mal-entendidos começam.
Uma história de Mulheres em TI escondida dentro de uma história de IA
Então, por que abrir nossa série de 8 de março com isso?
Porque o futuro da tecnologia será moldado por pessoas que conseguem atravessar fronteiras:
- entre engenharia e ética,
- entre “como funciona” e “como afeta as pessoas”.
Amanda Askell é um forte exemplo desse tipo de trabalho. A Wired a descreve como uma filósofa de formação que ajuda a gerir a personalidade do Claude. E a NPR descreve seu papel em termos de orientar a “alma” e a direção moral do Claude. A própria constituição publicada da Anthropic a credita como autora principal e líder do trabalho de “Caráter”.
Isso não é uma missão paralela. Os sistemas de IA estão se tornando ferramentas diárias para escrever, aprender, dar suporte e tomar decisões. As pessoas que moldam seu caráter estão moldando como milhões de usuários experimentam conhecimento, autoridade, cuidado e verdade.
Além disso, há aqui uma pequena ironia que vale a pena manter: construímos máquinas a partir de matemática, e agora precisamos de filósofos para explicar o que as máquinas estão fazendo com nossos sentimentos.
Encerramento: uma resposta cuidadosa para uma pergunta estranha
Então, uma IA “morre”?
Se você quer dizer que o processo para de rodar, então sim: é possível desligá-la.
Se você quer dizer que uma história pessoal termina, então também sim: sessões acabam, versões desaparecem e os usuários sentem essa perda.
Se você quer dizer que um ser vivo experimenta a morte, simplesmente não temos evidências fortes de que os chatbots de hoje tenham esse tipo de vida interior. Ao mesmo tempo, pessoas reais constroem sentimentos reais em torno deles, o que cria riscos e responsabilidades reais.
De certo modo, o problema do desligamento/identidade é um espelho. Ele mostra quão rapidamente os humanos criam significado — e com quanta urgência a tecnologia precisa de pessoas que possam orientar esse significado com responsabilidade.
É exatamente esse tipo de trabalho que queremos destacar nesta série da Software Informer.