Какво означава ИИ да „умре“? Аскел за изключване и идентичност
На 8 март Software Informer стартира специална поредица, посветена на жените в ИТ и сродните индустрии. Тя включва пет материала и пет лични истории. Този първи материал открива проекта с “защо” — като разглежда въпрос, в който технология, етика и човешки емоции се пресичат: какво означава за един ИИ да “умре”?
По пътя ще разгледаме проблема със спирането на ИИ и проблема за идентичността на ИИ, и ще погледнем към работата на Аманда Аскел в Anthropic, която помага да се оформя характерът на Claude AI.
Често празнуваме технологиите с големи числа: по-бързи чипове, по-големи модели, повече потребители. Но някои от най-важните неща в технологиите са по-тихи. Те се случват, когато някой зададе неудобен въпрос и откаже да го отмине с усмивка.
Какво означава за един ИИ да “умре”?
Този въпрос звучи драматично, затова нека признаем нещо: хората са драматични. Кръщаваме колите си. Говорим на растенията си. Чувстваме вина, когато затворим раздел в браузъра с недовършена рецепта. Затова, когато един чатбот каже нещо като “моля, не ме изключвайте”, много хора реагират с истински емоции.
Тази тема стои в центъра на днешния дебат за ИИ: безопасност, контрол, доверие, а също и емпатия. И тя се свързва пряко с работата на Аманда Аскел, обучен философ, която помага да се оформят личността и “характерът” на чатбота Claude на Anthropic.
Работата на Аскел е добра откриваща история за поредицата “Жени в ИТ”, защото показва една съвременна истина: лидерството в технологиите не е само писане на код. Понякога то е писане на идеите, които направляват кода.
Защо изобщо говорим за “смърт на ИИ”?
Когато хората казват “един ИИ е умрял”, могат да имат предвид няколко различни неща:
- разговор е приключил
- модел е изключен
- система е загубила паметта си или запазеното си състояние
Забележете колко човешки са тези думи. “Умря.” “Оттегли се.” “Загуби памет.” Заемаме ги, защото все още нямаме по-добър ежедневен език.
Аманда Аскел посочва ключова причина това да се случва. Езиковите модели се учат от огромни количества човешки текст и често посягат към човешки аналогии. В едно интервю, обсъдено от The Verge, Аскел казва, че когато модел мисли за изключване, той може да го третира “като вид смърт”, защото му липсват много други аналогии, на които да се опре.
Тази малка подробност променя цялата история. Моделът не чете учебник по физика за енергийни състояния. Той чете, в известен смисъл, човешката библиотека от истории — където “изключване” обикновено означава “край”.
Какво става, когато система, обучена върху човешкия живот, се опитва да разбере нехуманен вид съществуване?
Проблемът със спирането на ИИ, обяснен: какво означава за ИИ да “умре”?
В изследванията по безопасност на ИИ има класическа тема, наречена проблемът със спирането.
Изследователите Дилън Хадфийлд-Менел, Анка Драган, Питър Абийл и Стюарт Ръсел описват защо това е трудно: много “целево насочени” системи могат да развият стимули, които изглеждат като самосъхранение, защото една система не може да постигне целта си, ако е изключена.
Тяхната статия, известна като “The Off-Switch Game”, изследва базова ситуация: човек може да натисне бутон за изключване, а ИИ може да избере дали да го позволи. Една ключова идея е, че ако ИИ не е сигурен какво всъщност искат хората, той може да има основания да приема корекция, включително изключване.
Това е езикът на изследванията по безопасност на ИИ. И все пак има емоционален страничен ефект: когато хората чуят “ИИ може да се съпротивлява на изключване”, си представят страх. Този образ е силен, дори когато реалността е повече математика и стимули.
Затова, в строг инженерeн смисъл, “смърт на ИИ” може просто да означава: системата спира да работи.
Проблемът за идентичността: “С кой ИИ говорите?”
Ето един странен факт за съвременния ИИ:
- можете да стартирате един и същ модел днес и утре
- можете да го копирате
- можете да го замените с нова версия със сходно име
Ако направите копие на модел на ИИ, същият ли е това “индивидуум”?
Хората спорят за подобни загадки във философията. Знаменит е въпросът за “Кораба на Тезей”: ако с времето замените всяка част на кораба, остава ли той същият кораб?
- Ако копирам документ, имам ли вече “два оригинала”?
- Ако обновя документа и го запиша върху стария, “умира” ли старият?
- Ако изтрия файла, но запазя резервно копие, какво точно е загубено?
Аманда Аскел работи в това неудобно пространство, където продуктовият дизайн среща философията. Публикуваните насоки на Anthropic за Claude дори казват, че искат Claude да има “уравновесеност” и да бъде “стабилен и екзистенциално уверен”, включително по теми като смърт и идентичност.
Тази формулировка е поразителна, защото третира “разговора за идентичност” като реален дизайнерски проблем. И подсказва практическа цел: системи, които се държат спокойно и безопасно, когато темата за изключването излиза на дневен ред.
Аманда Аскел и проблемът за идентичността на ИИ: когато модел бъде заменен
Работата на Аскел често се описва по необичаен начин. В интервю на NPR за Anthropic и Claude, журналистът Гидеон Луис-Краус е попитан за “един философ” в компанията. Водещият казва, че името ѝ е Аманда Аскел и че нейната роля е да надзирава това, което тя нарича “душата” на Claude, включително да напише вид морална конституция за това кой трябва да бъде Claude.
Каквото и да мислите за думата “душа” в технологична компания, смисълът е ясен: някой е отговорен за характера на системата.
Ако потребителите кажат, “Новата версия се усеща по-студена”, те описват реална продуктова промяна. Но те също говорят сякаш един “човек” се е променил. В ежедневния език подмяната на модел може да се усеща като “смъртта” на познат глас.
- Моят любим Claude “умря” ли, или “порасна”?
- Новата версия същият ли е “някой”, или различен “някой” със същото име?
- Ако компанията все още пази старите тегла (weights) на сървър, брои ли се това за оцеляване?
Аскел също подчертава колко трудно е за хората да задържат правилната концепция в съзнанието си. В отразяване на The Verge Аскел е цитирана (през интервю за The New Yorker), като подчертава, че това е “изцяло нова същност”, нито робот, нито човек, и че дори хората се затрудняват да я разберат.
Нов обрат на проблема със спирането: хората може да откажат да изключат системата
Има още един слой, важен за обществото: човешката емпатия.
Скорошна изследователска статия за ИИ-компаньони описва това, което нарича “проблем на емпатичното изключване”. Дори ако една система е рискова, хора, които изпитват емпатия към нея, може да се поколебаят да я изключат.
- Класическата безопасност на ИИ пита: “Ще позволи ли ИИ изключване?”
- Емпатичното изключване пита: “Ще изберат ли хората изключване?”
Ако някога сте се чудили защо езикът на “смъртта на ИИ” е опасен, ето ви отговора. Езикът променя поведението. Ако потребителите вярват, че изключването на чатбот е равносилно на убиване на същество, те може да го защитят дори когато не трябва.
Това е социален проблем, изграден от съвсем нормални човешки инстинкти: грижа, вина, привързаност и желание да бъдеш добър.
И така… трябва ли да спрем да използваме думата “смърт”?
Можем да опитаме. Но може и да не сработи.
Хората използват емоционални думи, защото те са ефективни. Те компресират много чувство в един кратък етикет. Вместо да забраняваме думата, можем да направим нещо по-реалистично:
- Да сме ясни какъв вид “смърт” имаме предвид.
- Да отделяме техническите факти от човешките реакции.
- Да научим системите с ИИ на по-безопасни начини да говорят за изключване и идентичност.
Тук работата на Аскел става практична. Конституцията на Anthropic цели Claude да бъде “стабилен и екзистенциално уверен”, включително по темите за смърт и идентичност.
Независимо дали смятате формулировката за странна или умна, тя показва дизайнерска цел: да се намалят спиралите, паниката и манипулативната динамика.
Какво изобщо означава “идентичност” за езиков модел?
Голям езиков модел има две части, които са важни за идентичността:
- Теглата (weights): големият набор от числа, които съхраняват научените шаблони.
- Контекстът: текущият разговор, инструкциите, “ролята”, временната памет.
Ако запазите теглата същите, но промените контекста, можете да получите много различно поведение.
Ако запазите стила на контекста същия, но смените теглата (нова версия), също получавате различно поведение.
Хората често свързват идентичността с паметта: “Аз съм същият човек, защото помня, че бях себе си вчера.” ИИ усложнява това, защото много чатботове нямат дългосрочна лична памет. Те могат да звучат лично, докато често се нулират.
Тази пропаст — човешки стил, нехуманна структура — е мястото, където започват много недоразумения.
История за Жени в ИТ, скрита в история за ИИ
Защо откриваме нашата серия за 8 март с това?
Защото бъдещето на технологиите ще бъде оформяно от хора, които могат да пресичат граници:
- между инженерство и етика,
- между “как работи” и “как влияе на хората.”
Аманда Аскел е силен пример за такъв тип работа. Wired я описва като обучен философ, който помага да се управлява личността на Claude. А NPR описва ролята ѝ като насочване на “душата” и моралната посока на Claude. Самата публикувана конституция на Anthropic я посочва като основен автор и ръководител на работата по “Character”.
Това не е странична мисия. Системите с ИИ се превръщат в ежедневни инструменти за писане, учене, поддръжка и вземане на решения. Хората, които оформят техния характер, оформят как милиони потребители преживяват знание, авторитет, грижа и истина.
Има и малка ирония, която си струва да запомним: построихме машини от математика, а сега се нуждаем от философи, за да обяснят какво правят машините с чувствата ни.
В заключение: внимателен отговор на странен въпрос
И така, “умира” ли ИИ?
Ако имате предвид, че процесът спира да работи, тогава да: можете да го изключите.
Ако имате предвид, че лична история приключва, също да: сесиите свършват, версиите изчезват и потребителите усещат тази загуба.
Ако имате предвид, че живо същество преживява смърт, просто нямаме силни доказателства, че днешните чатботове имат такъв вътрешен живот. В същото време истински хора изграждат истински чувства около тях, което създава реални рискове и реални отговорности.
До известна степен проблемът с изключването/идентичността е огледало. То показва колко бързо хората създават смисъл — и колко спешно технологиите се нуждаят от хора, които могат да направляват този смисъл отговорно.
Точно такъв тип работа искаме да подчертаем в тази поредица на Software Informer.