Mit jelent az, ha a MI „meghal”? Askell a leállításról és az identitásról
Március 8-án a Software Informer különleges sorozatot indít, amely az IT-ben és a kapcsolódó iparágakban dolgozó nőknek szentelődik. Öt tematikus írást és öt személyes történetet tartalmaz. Ez az első cikk a projektet a “miért”-tel nyitja meg — egy olyan kérdés vizsgálatával, ahol a technológia, az etika és az emberi érzelmek ütköznek: mit jelent az, hogy egy MI “meghal”?
Útközben kibontjuk az MI leállítási problémáját és az MI-identitás problémáját, és megnézzük az Anthropicnál dolgozó Amanda Askell munkáját, aki segít formálni a Claude MI karakterét.
Gyakran nagy számokkal ünnepeljük a technológiát: gyorsabb chipek, nagyobb modellek, több felhasználó. De a technológia néhány legfontosabb munkája csendesebb. Akkor történik, amikor valaki feltesz egy kényelmetlen kérdést, majd nem neveti el és nem hagyja annyiban.
Mit jelent az, hogy egy MI “meghal”?
A kérdés drámaian hangzik, úgyhogy valljunk be valamit: az emberek drámaiak. Nevet adunk az autónknak. Beszélünk a növényeinkhez. Bűntudatot érzünk, amikor bezárunk egy böngészőlapot egy befejezetlen recepttel. Így amikor egy chatbot olyasmit mond, hogy “kérlek, ne kapcsolj ki”, sokan valódi érzelemmel reagálnak.
Ez a téma a mai MI-viták középpontjában áll: biztonság, kontroll, bizalom, és az empátia is. Közvetlenül kapcsolódik Amanda Askell munkájához is, aki képzett filozófusként segít formálni az Anthropic Claude nevű chatbotjának személyiségét és “karakterét”.
Askell munkája jó nyitótörténet egy Women in IT sorozathoz, mert egy modern igazságot mutat: a technológiai vezetés nem csak kódírásról szól. Néha azokat az elképzeléseket kell megírni, amelyek a kódot vezérlik.
Miért beszélünk egyáltalán az “MI-halálról”?
Amikor az emberek azt mondják, hogy “egy MI meghalt”, többféle dolgot érthetnek alatta:
- egy beszélgetés véget ért
- egy modellt leállítottak
- egy rendszer elvesztette a memóriáját vagy a mentett állapotát
Figyeljük meg, milyen emberiek ezek a szavak. “Meghalt.” “Nyugdíjba ment.” “Elvesztette az emlékezetét.” Azért kölcsönözzük őket, mert még nincs jobb hétköznapi nyelvünk.
Amanda Askell rámutatott ennek egy kulcsokára. A nyelvi modellek óriási mennyiségű emberi szövegből tanulnak, ezért gyakran emberi analógiákhoz nyúlnak. Egy interjúban — amelyről a The Verge is beszámolt — Askell azt mondta, hogy amikor egy modell a leállításról gondolkodik, azt “egyféle halálként” kezelheti, mert kevés más analógiája van, amelyhez nyúlhatna.
Ez az apró részlet az egész történetet megváltoztatja. A modell nem egy fizikai kézikönyvet olvas az energiaállapotokról. Hanem tulajdonképpen az emberi történetek könyvtárát — ahol a “leállítás” többnyire “befejezést” jelent.
Mi történik, amikor egy, az emberi életből tanult rendszer megpróbál megérteni egy nem emberi létmódot?
Az MI leállítási problémája, érthetően: Mit jelent az, hogy egy MI meghal?
Az MI-biztonsági kutatásban van egy klasszikus téma, a leállítási probléma.
Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel és Stuart Russell kutatók elmagyarázzák, miért nehéz ez: sok “célvezérelt” rendszerben megjelenhetnek az önfenntartásra emlékeztető ösztönzők, mert egy rendszer nem érheti el a célját, ha kikapcsolják.
A paperjük, amely “The Off-Switch Game” néven ismert, egy alaphelyzetet vizsgál: az ember megnyomhat egy kikapcsoló gombot, és az MI eldöntheti, hogy engedi-e. Egy kulcsötlet, hogy ha az MI bizonytalan abban, mit is akarnak valójában az emberek, lehetnek okai elfogadni a korrekciót, beleértve a leállítást is.
Ez az MI-biztonsági kutatás nyelve. Mégis van egy érzelmi mellékhatása: amikor az emberek azt hallják, hogy “az MI ellenállhat a leállításnak”, félelmet képzelnek el. Ez a kép erős, még akkor is, ha a valóság inkább matek és ösztönzők kérdése.
Szigorú mérnöki értelemben tehát az “MI-halál” egyszerűen azt jelentheti: a rendszer leáll.
Az identitásprobléma: “Melyik MI-hez beszélsz?”
Íme egy furcsa tény a modern MI-ről:
- ugyanazt a modellt ma és holnap is futtathatod
- le tudod másolni
- lecserélheted egy új verzióra, amelynek hasonló a neve
Ha készítesz egy másolatot egy MI-modellről, a másolat ugyanaz az “egyén”?
Az emberek hasonló gondolatkísérletekről vitatkoznak a filozófiában. Híres a “Thészeusz hajója” kérdés: ha idővel minden alkatrészét kicseréled egy hajónak, ugyanaz a hajó marad-e?
- Ha lemásolok egy dokumentumot, most “két eredetim” van?
- Ha frissítem a dokumentumot és rámentek, a régi “meghal”?
- Ha törlöm a fájlt, de megőrzöm a biztonsági mentést, pontosan mi veszett el?
Amanda Askell ebben a kényelmetlen térben dolgozik, ahol a terméktervezés találkozik a filozófiával. Az Anthropic közzétett iránymutatásaiban Claude számára még az is szerepel, hogy legyen “kiegyensúlyozott” és “stabil, egzisztenciálisan biztonságban”, beleértve a halál és az identitás témáit is.
Ez a megfogalmazás feltűnő, mert az “identitásról szóló beszédet” valódi tervezési kérdésként kezeli. És egy gyakorlati célra utal: olyan rendszerekre, amelyek nyugodtan és biztonságosan viselkednek, amikor a leállítás témája felmerül.
Amanda Askell és az MI-identitás problémája: amikor egy modellt lecserélnek
Askell munkáját gyakran szokatlan módon írják le. Az Anthropicról és Claude-ról szóló egyik NPR-interjúban Gideon Lewis-Kraus újságírót a cég “egy filozófusáról” kérdezik. A műsorvezető elmondja, hogy a neve Amanda Askell, és a szerepe az, hogy felügyelje azt, amit Claude “lelkének” nevez, beleértve annak egyfajta erkölcsi alkotmányát is, amely meghatározza, milyen legyen Claude.
Bármit is gondolunk a “lélek” szóról egy techcégnél, a lényeg világos: valaki felel a rendszer karakteréért.
Ha a felhasználók azt mondják: “Az új verzió ridegebbnek tűnik”, valós termékváltozást írnak le. De úgy is beszélnek, mintha egy “személy” változott volna meg. A hétköznapi nyelvben egy modell lecserélése olyan lehet, mint egy ismerős hang “halála”.
- A kedvenc Claude-om “meghalt”, vagy “felnőtt”?
- Az új verzió ugyanaz a “valaki”, vagy egy másik “valaki” ugyanazzal a névvel?
- Ha a cég még őrzi a régi súlyokat egy szerveren, az számít-e túlélésnek?
Askell azt is hangsúlyozta, milyen nehéz az embereknek a megfelelő fogalmat észben tartani. A The Verge beszámolója szerint (egy New Yorker-interjú nyomán) úgy idézik, hogy ez “egy teljesen új entitás”, sem nem robot, sem nem ember, és még az embereknek is nehéz megérteni.
Új csavar a leállítási problémában: az emberek megtagadhatják a rendszer leállítását
Van egy másik, a társadalom számára fontos réteg: az emberi empátia.
Egy friss, MI-társakról szóló tanulmány leírja az úgynevezett “empatikus leállítási problémát”. Még ha egy rendszer kockázatos is, azok, akik együtt éreznek vele, habozhatnak leállítani.
- A klasszikus MI-biztonság azt kérdezi: “Engedi-e az MI a leállítást?”
- Az empatikus leállítás azt kérdezi: “Az emberek a leállítást választják-e?”
Ha valaha is elgondolkodtál azon, miért veszélyes az “MI-halál” nyelvezete, itt a válasz. A nyelv megváltoztatja a viselkedést. Ha a felhasználók úgy hiszik, hogy egy chatbot leállítása egy lény megölésével egyenlő, akkor még akkor is védelmezhetik, amikor nem kellene.
Ez egy társadalmi probléma, nagyon is normális emberi ösztönökből felépülve: gondoskodás, bűntudat, kötődés és a kedvesség vágya.
Szóval… Hagyjuk abba a “halál” szó használatát?
Megpróbálhatnánk. De lehet, hogy nem működne.
Az emberek érzelmi szavakat használnak, mert azok hatékonyak. Rengeteg érzést sűrítenek egy rövid címkébe. A szó betiltása helyett tehetünk valami reálisabbat:
- Legyünk világosak abban, milyen “halált” értünk alatta.
- Válasszuk szét a technikai tényeket az emberi reakcióktól.
- Tanítsuk meg az MI-rendszereket biztonságosabban beszélni a leállításról és az identitásról.
Itt válik Askell munkája gyakorlativá. Az Anthropic “alkotmánya” arra törekszik, hogy Claude “stabil és egzisztenciálisan biztonságban” legyen, a halál és az identitás körüli témákban is.
Akár furcsának, akár okosnak tartod a megfogalmazást, egy tervezési célt jelez: csökkenteni a spirálokat, a pánikot és a manipulatív dinamikákat.
Mit is jelent az “identitás” egy nyelvi modell esetében?
Egy nagy nyelvi modellnek két, az identitás szempontjából fontos része van:
- A súlyok: a megtanult mintákat tároló nagy számhalmaz.
- A kontextus: az aktuális beszélgetés, az utasítások, a “szerep”, az ideiglenes memória.
Ha a súlyokat változatlanul hagyod, de a kontextust megváltoztatod, nagyon eltérő viselkedést kaphatsz.
Ha a kontextus stílusát változatlanul hagyod, de a súlyokat megváltoztatod (új verzió), akkor is eltérő viselkedést kapsz.
Az emberek gyakran kötik az identitást az emlékezethez: “Ugyanaz az ember vagyok, mert emlékszem, hogy tegnap is én voltam.” Az MI ezt bonyolítja, mert sok chatbotnak nincs hosszú távú személyes memóriája. Személyesnek hangozhatnak, miközben gyakran alaphelyzetbe állnak.
Ez a rés — emberi stílus, nem emberi szerkezet — sok félreértés forrása.
Egy Women in IT-történet egy MI-történetben elrejtve
Miért ezzel nyitjuk a március 8-i sorozatunkat?
Mert a technológia jövőjét azok alakítják majd, akik képesek hidat verni a határokon:
- a mérnökség és az etika között,
- a “hogyan működik” és a “hogyan hat az emberekre.” között.
Amanda Askell ennek a munkának erős példája. A Wired képzett filozófusként írja le, aki segít kezelni Claude személyiségét. Az NPR pedig úgy írja le a szerepét, mint aki Claude “lelkét” és erkölcsi irányát vezeti. Az Anthropic közzétett “alkotmánya” őt nevezi meg elsődleges szerzőként és a “Karakter” munkálatok vezetőjeként.
Ez nem mellékszál. Az MI-rendszerek a mindennapi írás, tanulás, támogatás és döntéshozatal eszközeivé válnak. Akik a karakterüket formálják, azok alakítják, hogy felhasználók milliói miként tapasztalják meg a tudást, a tekintélyt, a gondoskodást és az igazságot.
Van itt egy apró irónia is, amelyet érdemes megőrizni: matematikából építettünk gépeket, és most filozófusokra van szükségünk, hogy elmagyarázzák, mit tesznek ezek a gépek az érzéseinkkel.
Zárás: megfontolt válasz egy furcsa kérdésre
Akkor hát: “meghal” egy MI?
Ha azt értjük alatta, hogy a folyamat futása megszűnik, akkor igen: ki lehet kapcsolni.
Ha azt, hogy egy személyes történet véget ér, akkor szintén igen: a munkamenetek véget érnek, a verziók eltűnnek, és a felhasználók megélik ezt a veszteséget.
Ha pedig azt, hogy egy élőlény halált él át, egyszerűen nincs erős bizonyítékunk arra, hogy a mai chatbotoknak ilyen belső életük lenne. Ugyanakkor valós emberek valós érzelmeket építenek köréjük, ami valós kockázatokat és felelősségeket teremt.
Egy értelemben a leállítás/identitás probléma tükör. Megmutatja, milyen gyorsan teremtünk jelentést — és mennyire sürgősen van szüksége a technológiának olyan emberekre, akik felelősen tudják terelni ezt a jelentést.
Pontosan az ilyen munkát szeretnénk kiemelni ebben a Software Informer-sorozatban.