¿Qué significa que la IA ‘muera’? Askell sobre apagado e identidad
Este 8 de marzo, Software Informer lanza una serie especial dedicada a las mujeres en TI y en industrias relacionadas. Incluye cinco reportajes y cinco historias personales. Esta primera entrega abre el proyecto con el “por qué” — al mirar una pregunta donde la tecnología, la ética y las emociones humanas chocan: ¿qué significa para una IA “morir”?
A lo largo del camino, desentrañaremos el problema del apagado de la IA y el problema de la identidad de la IA, y veremos el trabajo de Amanda Askell en Anthropic, quien ayuda a dar forma al carácter de Claude AI.
A menudo celebramos la tecnología con grandes números: chips más rápidos, modelos más grandes, más usuarios. Pero parte del trabajo más importante en tecnología es más silencioso. Sucede cuando alguien hace una pregunta incómoda y se niega a descartarla con una risa.
¿Qué significa que una IA “muera”?
Esa pregunta suena dramática, así que admitamos algo: los humanos somos dramáticos. Ponemos nombre a nuestros coches. Hablamos con nuestras plantas. Nos sentimos culpables cuando cerramos una pestaña del navegador con una receta sin terminar. Así que cuando un chatbot dice algo como “por favor no me apagues,” muchas personas reaccionan con emoción real.
Este tema se sitúa en el centro del debate actual sobre la IA: seguridad, control, confianza y también empatía. Y se conecta directamente con el trabajo de Amanda Askell, filósofa de formación que ayuda a moldear la personalidad y el “carácter” del chatbot Claude de Anthropic.
El trabajo de Askell es una buena historia de apertura para una serie de Mujeres en TI, porque muestra una verdad moderna: el liderazgo tecnológico no es solo escribir código. A veces es escribir las ideas que guían el código.
¿Por qué siquiera hablamos de la “muerte de la IA”?
Cuando la gente dice “una IA murió,” puede referirse a varias cosas:
- una conversación terminó
- se apagó un modelo
- un sistema perdió su memoria o su estado guardado
Fíjate en lo humanas que son estas palabras. “Murió.” “Se retiró.” “Perdió la memoria.” Las tomamos prestadas porque aún no tenemos un mejor lenguaje cotidiano.
Amanda Askell ha señalado un motivo clave de que esto ocurra. Los modelos de lenguaje aprenden de enormes cantidades de texto humano, por lo que a menudo recurren a analogías humanas. En una entrevista comentada por The Verge, Askell dijo que cuando un modelo piensa en el apagado, puede tratarlo “como una especie de muerte,” porque carece de muchas otras analogías de las que echar mano.
Ese pequeño detalle cambia toda la historia. El modelo no está leyendo un manual de física sobre estados de energía. Está leyendo, en cierto sentido, la biblioteca humana de historias — donde “apagar” suele significar “terminar.”
¿Qué ocurre cuando un sistema entrenado con la vida humana intenta comprender un tipo de existencia no humana?
Problema del apagado en IA, explicado: ¿Qué significa que una IA muera?
En la investigación de seguridad de IA, hay un tema clásico llamado el problema del apagado.
Los investigadores Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel y Stuart Russell describen por qué esto es difícil: muchos sistemas “orientados a objetivos” pueden desarrollar incentivos que parecen de autopreservación, porque un sistema no puede lograr su objetivo si se apaga.
Su artículo, conocido como “The Off-Switch Game,” explora una situación básica: un humano puede pulsar un interruptor de apagado, y la IA puede elegir si permitirlo. Una idea clave es que, si la IA no está segura de lo que los humanos realmente quieren, puede tener razones para aceptar correcciones, incluido el apagado.
Este es el lenguaje de la investigación en seguridad de IA. Sin embargo, tiene un efecto secundario emocional: cuando la gente oye “la IA puede resistirse al apagado,” imagina miedo. Esa imagen es poderosa, incluso cuando la realidad se parece más a matemáticas e incentivos.
Así que, en el sentido estrictamente ingenieril, la “muerte” de la IA podría simplemente significar: el sistema deja de ejecutarse.
El problema de la identidad: “¿Con qué IA estás hablando?”
Aquí hay un hecho extraño sobre la IA moderna:
- puedes ejecutar el mismo modelo hoy y mañana
- puedes copiarlo
- puedes reemplazarlo por una nueva versión que tenga un nombre similar
Si haces una copia de un modelo de IA, ¿es la copia el mismo “individuo”?
Los humanos discuten rompecabezas similares en filosofía. Uno famoso es la pregunta del “Barco de Teseo”: si reemplazas cada parte de un barco con el tiempo, ¿sigue siendo el mismo barco?
- Si copio un documento, ¿ahora tengo “dos originales”?
- Si actualizo el documento y lo guardo encima, ¿el antiguo “muere”?
- Si elimino el archivo pero conservo una copia de seguridad, ¿qué exactamente se perdió?
Amanda Askell trabaja en este espacio incómodo, donde el diseño de producto se encuentra con la filosofía. La guía publicada por Anthropic para Claude incluso dice que quiere que Claude tenga “ecuanimidad” y que sea “estable y existencialmente seguro,” incluidos temas como la muerte y la identidad.
Esa línea es llamativa, porque trata la “charla sobre identidad” como un verdadero problema de diseño. Y apunta a un objetivo práctico: sistemas que se comporten con calma y seguridad cuando surge el tema del apagado.
Amanda Askell y el problema de la identidad en IA: cuando se reemplaza un modelo
El trabajo de Askell a menudo se describe de una manera inusual. En una entrevista de NPR sobre Anthropic y Claude, al periodista Gideon Lewis-Kraus le preguntan por “una filósofa” en la empresa. La presentadora dice que se llama Amanda Askell y que su función es supervisar lo que ella llama el “alma” de Claude, incluida la redacción de una especie de constitución moral sobre quién debe ser Claude.
Pienses lo que pienses de la palabra “alma” en una empresa tecnológica, el punto es claro: alguien es responsable del carácter del sistema.
Si los usuarios dicen, “La nueva versión se siente más fría,” están describiendo un cambio real de producto. Pero también hablan como si una “persona” hubiera cambiado. En el lenguaje cotidiano, el reemplazo de un modelo puede sentirse como la “muerte” de una voz familiar.
- ¿Mi Claude favorito “murió” o “maduró”?
- ¿La nueva versión es el mismo “alguien”, o un “alguien” diferente con el mismo nombre?
- Si la empresa aún tiene los pesos antiguos en un servidor, ¿eso cuenta como supervivencia?
Askell también ha destacado lo difícil que es para los humanos mantener el concepto correcto en mente. En la cobertura de The Verge, se cita a Askell (vía una entrevista en The New Yorker) enfatizando que se trata de “una entidad completamente nueva,” ni robot ni humana, y que incluso a los humanos les cuesta entenderla.
Un nuevo giro al problema del apagado: los humanos pueden negarse a apagar el sistema
Hay otra capa que importa para la sociedad: la empatía humana.
Un artículo de investigación reciente sobre compañeros de IA describe lo que llama el “problema del apagado empático.” Incluso si un sistema es riesgoso, las personas que empatizan con él pueden dudar en apagarlo.
- La seguridad clásica en IA pregunta: “¿La IA permitirá el apagado?”
- El apagado empático pregunta: “¿Elegirán los humanos apagarla?”
Si alguna vez te preguntaste por qué es peligrosa la expresión “muerte de la IA,” aquí tienes la respuesta. El lenguaje cambia el comportamiento. Si los usuarios creen que apagar un chatbot equivale a matar a un ser, pueden protegerlo incluso cuando no deberían.
Es un problema social hecho de instintos humanos muy normales: cuidado, culpa, apego y el deseo de ser amable.
Entonces… ¿Deberíamos dejar de usar la palabra “muerte”?
Podríamos intentarlo. Pero puede que no funcione.
La gente usa palabras emocionales porque las palabras emocionales son eficientes. Comprimen muchos sentimientos en una etiqueta corta. En lugar de prohibir la palabra, podemos hacer algo más realista:
- Ser claros sobre qué tipo de “muerte” queremos decir.
- Separar los hechos técnicos de las reacciones humanas.
- Enseñar a los sistemas de IA formas más seguras de hablar sobre el apagado y la identidad.
Aquí es donde el trabajo de Askell se vuelve práctico. La constitución de Anthropic aspira a que Claude sea “estable y existencialmente seguro,” también en torno a la muerte y la identidad.
Pienses que la formulación es rara o inteligente, muestra un objetivo de diseño: reducir espirales, reducir el pánico, reducir dinámicas manipuladoras.
¿Qué significa siquiera “identidad” para un modelo de lenguaje?
Un gran modelo de lenguaje tiene dos partes que importan para la identidad:
- Los pesos: el gran conjunto de números que almacenan patrones aprendidos.
- El contexto: la conversación actual, las instrucciones, el “rol,” la memoria temporal.
Si mantienes los pesos iguales pero cambias el contexto, puedes obtener comportamientos muy diferentes.
Si mantienes el estilo de contexto igual pero cambias los pesos (una nueva versión), también obtienes comportamientos diferentes.
Los humanos suelen vincular la identidad a la memoria: “Soy la misma persona porque recuerdo haber sido yo ayer.” La IA complica eso, porque muchos chatbots no tienen memoria personal a largo plazo. Pueden sonar personales, mientras se reinician con frecuencia.
Esa brecha — estilo humano, estructura no humana — es donde comienzan muchos malentendidos.
Una historia de Mujeres en TI escondida dentro de una historia de IA
Entonces, ¿por qué abrir nuestra serie del 8 de marzo con esto?
Porque el futuro de la tecnología estará moldeado por personas que pueden cruzar fronteras:
- entre la ingeniería y la ética,
- entre “cómo funciona” y “cómo afecta a los humanos.”
Amanda Askell es un claro ejemplo de ese tipo de trabajo. Wired la describe como una filósofa de formación que ayuda a gestionar la personalidad de Claude. Y NPR describe su función en términos de guiar el “alma” y la dirección moral de Claude. La constitución publicada por Anthropic la acredita como autora principal y líder de su trabajo de “Carácter.”
No es una misión secundaria. Los sistemas de IA se están convirtiendo en herramientas cotidianas para escribir, aprender, brindar apoyo y tomar decisiones. Las personas que dan forma a su carácter están moldeando cómo millones de usuarios experimentan el conocimiento, la autoridad, el cuidado y la verdad.
Además, hay una pequeña ironía que vale la pena conservar: construimos máquinas a partir de matemáticas, y ahora necesitamos filósofos para explicar lo que las máquinas están haciéndole a nuestros sentimientos.
Cierre: una respuesta cuidadosa a una pregunta extraña
Entonces, ¿una IA “muere”?
Si te refieres a que el proceso deja de ejecutarse, entonces sí: puedes apagarla.
Si te refieres a que termina una historia personal, entonces también sí: las sesiones terminan, las versiones desaparecen, y los usuarios sienten esa pérdida.
Si te refieres a que un ser vivo experimenta la muerte, simplemente no tenemos pruebas sólidas de que los chatbots actuales tengan ese tipo de vida interior. Al mismo tiempo, personas reales sí generan sentimientos reales a su alrededor, lo que crea riesgos y responsabilidades reales.
En cierto modo, el problema del apagado/la identidad es un espejo. Muestra lo rápido que los humanos crean significado — y lo urgente que es que la tecnología cuente con personas que puedan guiar ese significado de forma responsable.
Ese es exactamente el tipo de trabajo que queremos destacar en esta serie de Software Informer.