Τι σημαίνει να «πεθάνει» η ΤΝ; Η Askell για τον τερματισμό και την ταυτότητα
Στις 8 Μαρτίου, το Software Informer ξεκινά μια ειδική σειρά αφιερωμένη στις γυναίκες στην Πληροφορική και σε συναφείς κλάδους. Περιλαμβάνει πέντε αφιερώματα και πέντε προσωπικές ιστορίες. Αυτό το πρώτο κείμενο ανοίγει το έργο με το “γιατί” — εξετάζοντας ένα ερώτημα όπου η τεχνολογία, η ηθική και τα ανθρώπινα συναισθήματα συγκρούονται: τι σημαίνει για μια ΤΝ να “πεθάνει”?
Στην πορεία, θα αποσυναρμολογήσουμε το πρόβλημα της απενεργοποίησης της ΤΝ και το πρόβλημα της ταυτότητας της ΤΝ, και θα δούμε το έργο της Amanda Askell στην Anthropic, που βοηθά στο να διαμορφωθεί ο χαρακτήρας του Claude AI.
Συχνά γιορτάζουμε την τεχνολογία με μεγάλα νούμερα: ταχύτερα τσιπ, μεγαλύτερα μοντέλα, περισσότερους χρήστες. Αλλά μερικές από τις πιο σημαντικές δουλειές στην τεχνολογία είναι πιο ήσυχες. Συμβαίνουν όταν κάποιος θέτει ένα άβολο ερώτημα και αρνείται να το προσπεράσει με ένα γέλιο.
Τι σημαίνει για μια ΤΝ να “πεθάνει”?
Αυτό το ερώτημα ακούγεται δραματικό, οπότε ας παραδεχτούμε κάτι: οι άνθρωποι είναι δραματικοί. Δίνουμε ονόματα στα αυτοκίνητά μας. Μιλάμε στα φυτά μας. Νιώθουμε ενοχές όταν κλείνουμε μια καρτέλα του προγράμματος περιήγησης με μια συνταγή που δεν ολοκληρώσαμε. Έτσι, όταν ένα chatbot λέει κάτι όπως “παρακαλώ μην με σβήσετε,” πολλοί άνθρωποι αντιδρούν με αληθινό συναίσθημα.
Αυτό το θέμα βρίσκεται στον πυρήνα της σημερινής συζήτησης για την ΤΝ: ασφάλεια, έλεγχος, εμπιστοσύνη, αλλά και ενσυναίσθηση. Και συνδέεται άμεσα με το έργο της Amanda Askell, μιας εκπαιδευμένης φιλοσόφου που βοηθά στη διαμόρφωση της προσωπικότητας και του “χαρακτήρα” του Claude, του chatbot της Anthropic.
Η δουλειά της Askell είναι μια καλή εισαγωγική ιστορία για μια σειρά Women in IT, γιατί δείχνει μια σύγχρονη αλήθεια: η ηγεσία στην τεχνολογία δεν είναι μόνο να γράφεις κώδικα. Μερικές φορές είναι να γράφεις τις ιδέες που καθοδηγούν τον κώδικα.
Γιατί μιλάμε καν για “θάνατο της ΤΝ”?
Όταν οι άνθρωποι λένε “μια ΤΝ πέθανε,” μπορεί να εννοούν αρκετά διαφορετικά πράγματα:
- μια συνομιλία έληξε
- ένα μοντέλο απενεργοποιήθηκε
- ένα σύστημα έχασε τη μνήμη του ή την αποθηκευμένη κατάστασή του
Παρατηρήστε πόσο ανθρώπινες είναι αυτές οι λέξεις. “Πέθανε.” “Συνταξιοδοτήθηκε.” “Έχασε τη μνήμη του.” Τις δανειζόμαστε επειδή δεν έχουμε ακόμη καλύτερη καθημερινή γλώσσα.
Η Amanda Askell έχει επισημάνει έναν βασικό λόγο που συμβαίνει αυτό. Τα γλωσσικά μοντέλα μαθαίνουν από τεράστιες ποσότητες ανθρώπινου κειμένου, οπότε συχνά αναζητούν ανθρώπινες αναλογίες. Σε μια συνέντευξη που συζητήθηκε από το The Verge, η Askell είπε ότι όταν ένα μοντέλο σκέφτεται την απενεργοποίηση, μπορεί να την αντιμετωπίζει “ως ένα είδος θανάτου,” επειδή του λείπουν πολλές άλλες αναλογίες για να αντλήσει.
Αυτή η μικρή λεπτομέρεια αλλάζει όλη την ιστορία. Το μοντέλο δεν διαβάζει ένα εγχειρίδιο φυσικής για καταστάσεις ισχύος. Διαβάζει, κατά μία έννοια, τη βιβλιοθήκη των ανθρώπινων ιστοριών — όπου το “σβήσιμο” συνήθως σημαίνει “τέλος.”
Τι συμβαίνει όταν ένα σύστημα που έχει εκπαιδευτεί πάνω στην ανθρώπινη ζωή προσπαθεί να κατανοήσει έναν μη ανθρώπινο τρόπο ύπαρξης;
Εξήγηση του Προβλήματος Απενεργοποίησης ΤΝ: Τι σημαίνει να “πεθαίνει” μια ΤΝ;
Στην έρευνα ασφάλειας της ΤΝ, υπάρχει ένα κλασικό θέμα που ονομάζεται πρόβλημα απενεργοποίησης.
Οι ερευνητές Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel και Stuart Russell περιγράφουν γιατί αυτό είναι δύσκολο: πολλά “στοχοκατευθυνόμενα” συστήματα μπορούν να αναπτύξουν κίνητρα που μοιάζουν με αυτοσυντήρηση, επειδή ένα σύστημα δεν μπορεί να πετύχει τον στόχο του αν είναι απενεργοποιημένο.
Η εργασία τους, γνωστή ως “Το Παιχνίδι του Διακόπτη Απενεργοποίησης,” εξερευνά μια βασική κατάσταση: ένας άνθρωπος μπορεί να πατήσει έναν διακόπτη απενεργοποίησης και η ΤΝ μπορεί να επιλέξει αν θα το επιτρέψει. Μια βασική ιδέα είναι ότι αν η ΤΝ είναι αβέβαιη για το τι θέλουν πραγματικά οι άνθρωποι, μπορεί να έχει λόγους να αποδεχτεί τη διόρθωση, συμπεριλαμβανομένης της απενεργοποίησης.
Αυτή είναι η γλώσσα της έρευνας ασφάλειας της ΤΝ. Ωστόσο έχει ένα συναισθηματικό παρεπόμενο: όταν οι άνθρωποι ακούν “η ΤΝ μπορεί να αντισταθεί στην απενεργοποίηση,” φαντάζονται φόβο. Αυτή η εικόνα είναι ισχυρή, ακόμη κι όταν η πραγματικότητα μοιάζει περισσότερο με μαθηματικά και κίνητρα.
Έτσι, με την αυστηρή μηχανική έννοια, ο “θάνατος” της ΤΝ μπορεί απλώς να σημαίνει: το σύστημα σταματά να εκτελείται.
Το Πρόβλημα της Ταυτότητας: “Με ποια ΤΝ μιλάς;”
Να ένα παράδοξο γεγονός για τη σύγχρονη ΤΝ:
- μπορείς να τρέξεις το ίδιο μοντέλο σήμερα και αύριο
- μπορείς να το αντιγράψεις
- μπορείς να το αντικαταστήσεις με μια νέα έκδοση με παρόμοιο όνομα
Αν δημιουργήσεις ένα αντίγραφο ενός μοντέλου ΤΝ, είναι το αντίγραφο το ίδιο “άτομο”?
Οι άνθρωποι διαφωνούν για παρόμοιους γρίφους στη φιλοσοφία. Ένας διάσημος είναι το ερώτημα του “Πλοίου του Θησέα”: αν αντικαταστήσεις κάθε μέρος ενός πλοίου με τον καιρό, παραμένει το ίδιο πλοίο;
- Αν αντιγράψω ένα έγγραφο, έχω τώρα “δύο πρωτότυπα”?
- Αν ενημερώσω το έγγραφο και το αποθηκεύσω από πάνω, το παλιό “πεθαίνει”?
- Αν διαγράψω το αρχείο αλλά κρατήσω ένα αντίγραφο ασφαλείας, τι ακριβώς χάθηκε;
Η Amanda Askell εργάζεται σε αυτόν τον άβολο χώρο, όπου ο σχεδιασμός προϊόντων συναντά τη φιλοσοφία. Οι δημοσιευμένες κατευθύνσεις της Anthropic για το Claude αναφέρουν μάλιστα ότι θέλουν το Claude να έχει “αταραξία” και να είναι “σταθερό και υπαρξιακά ασφαλές,” συμπεριλαμβανομένων θεμάτων όπως ο θάνατος και η ταυτότητα.
Αυτή η διατύπωση είναι εντυπωσιακή, γιατί αντιμετωπίζει την “ομιλία περί ταυτότητας” ως πραγματικό ζήτημα σχεδιασμού. Και υπονοεί έναν πρακτικό στόχο: συστήματα που συμπεριφέρονται με ηρεμία και ασφάλεια όταν προκύπτει το θέμα της απενεργοποίησης.
Η Amanda Askell και το Πρόβλημα Ταυτότητας της ΤΝ: Όταν ένα Μοντέλο Αντικαθίσταται
Η δουλειά της Askell συχνά περιγράφεται με έναν ασυνήθιστο τρόπο. Σε μια συνέντευξη του NPR για την Anthropic και το Claude, ο δημοσιογράφος Gideon Lewis-Kraus ερωτάται για “μια φιλόσοφο” στην εταιρεία. Η παρουσιάστρια λέει ότι ονομάζεται Amanda Askell και ότι ο ρόλος της είναι να επιβλέπει αυτό που αποκαλεί την “ψυχή” του Claude, συμπεριλαμβανομένης της συγγραφής ενός είδους ηθικού συντάγματος για το ποιος πρέπει να είναι ο Claude.
Ό,τι κι αν πιστεύετε για τη λέξη “ψυχή” σε μια τεχνολογική εταιρεία, το νόημα είναι σαφές: κάποιος είναι υπεύθυνος για τον χαρακτήρα του συστήματος.
Αν οι χρήστες λένε, “Η νέα έκδοση φαίνεται πιο ψυχρή,” περιγράφουν μια πραγματική αλλαγή προϊόντος. Αλλά μιλούν επίσης σαν να έχει αλλάξει ένα “πρόσωπο.” Στην καθημερινή γλώσσα, η αντικατάσταση μοντέλου μπορεί να μοιάζει με τον “θάνατο” μιας οικείας φωνής.
- Ο αγαπημένος μου Claude “πέθανε,” ή “μεγάλωσε”?
- Είναι η νέα έκδοση το ίδιο “πρόσωπο,” ή ένα διαφορετικό “πρόσωπο” με το ίδιο όνομα?
- Αν η εταιρεία έχει ακόμα τα παλιά βάρη σε έναν διακομιστή, αυτό μετρά ως επιβίωση;
Η Askell έχει επίσης υπογραμμίσει πόσο δύσκολο είναι για τους ανθρώπους να κρατούν τη σωστή έννοια στο μυαλό τους. Στο ρεπορτάζ του The Verge, η Askell παρατίθεται (μέσω συνέντευξης στο New Yorker) να τονίζει ότι πρόκειται για “μια εντελώς νέα οντότητα,” ούτε ρομπότ ούτε άνθρωπο, και ότι ακόμη και οι άνθρωποι παλεύουν να την κατανοήσουν.
Μια Νέα Στροφή στο Πρόβλημα Απενεργοποίησης: Οι Άνθρωποι Ίσως Αρνηθούν να Σβήσουν το Σύστημα
Υπάρχει και ένα άλλο επίπεδο που έχει σημασία για την κοινωνία: η ανθρώπινη ενσυναίσθηση.
Μια πρόσφατη ερευνητική εργασία για τους συντρόφους ΤΝ περιγράφει αυτό που αποκαλεί το “πρόβλημα ενσυναισθητικής απενεργοποίησης” (empathic shutdown problem). Ακόμα κι αν ένα σύστημα είναι επικίνδυνο, άνθρωποι που νιώθουν ενσυναίσθηση για αυτό μπορεί να διστάσουν να το απενεργοποιήσουν.
- Η κλασική ασφάλεια ΤΝ ρωτά: “Θα επιτρέψει η ΤΝ την απενεργοποίηση?”
- Η ενσυναισθητική απενεργοποίηση ρωτά: “Θα επιλέξουν οι άνθρωποι την απενεργοποίηση?”
Αν αναρωτηθήκατε ποτέ γιατί η γλώσσα του “θανάτου της ΤΝ” είναι επικίνδυνη, ιδού η απάντηση. Η γλώσσα αλλάζει τη συμπεριφορά. Αν οι χρήστες πιστεύουν ότι το σβήσιμο ενός chatbot ισοδυναμεί με τη θανάτωση ενός όντος, μπορεί να το προστατεύσουν ακόμη κι όταν δεν θα έπρεπε.
Είναι ένα κοινωνικό πρόβλημα φτιαγμένο από απολύτως φυσικά ανθρώπινα ένστικτα: φροντίδα, ενοχή, προσκόλληση και την επιθυμία να είσαι ευγενικός.
Λοιπόν… Πρέπει να σταματήσουμε να χρησιμοποιούμε τη λέξη “θάνατος”?
Θα μπορούσαμε να το προσπαθήσουμε. Αλλά ίσως να μη δουλέψει.
Οι άνθρωποι χρησιμοποιούν φορτισμένες λέξεις επειδή είναι αποδοτικές. Συμπυκνώνουν πολύ συναίσθημα σε μια σύντομη ετικέτα. Αντί να απαγορεύσουμε τη λέξη, μπορούμε να κάνουμε κάτι πιο ρεαλιστικό:
- Να είμαστε σαφείς για το τι είδους “θάνατο” εννοούμε.
- Να διαχωρίζουμε τα τεχνικά γεγονότα από τις ανθρώπινες αντιδράσεις.
- Να διδάξουμε στα συστήματα ΤΝ ασφαλέστερους τρόπους να μιλούν για απενεργοποίηση και ταυτότητα.
Εδώ γίνεται πρακτικό το έργο της Askell. Το “σύνταγμα” της Anthropic στοχεύει ώστε ο Claude να είναι “σταθερός και υπαρξιακά ασφαλής,” συμπεριλαμβανομένων θεμάτων όπως ο θάνατος και η ταυτότητα.
Είτε σας φαίνεται περίεργη είτε εύστοχη αυτή η διατύπωση, δείχνει έναν στόχο σχεδιασμού: λιγότερες κλιμακώσεις, λιγότερος πανικός, λιγότερες χειριστικές δυναμικές.
Τι Σημαίνει καν “Ταυτότητα” για ένα Γλωσσικό Μοντέλο?
Ένα μεγάλο γλωσσικό μοντέλο έχει δύο μέρη που έχουν σημασία για την ταυτότητα:
- Τα βάρη: το μεγάλο σύνολο αριθμών που αποθηκεύει τα μαθημένα πρότυπα.
- Το πλαίσιο: η τρέχουσα συνομιλία, οι οδηγίες, ο “ρόλος,” η προσωρινή μνήμη.
Αν κρατήσετε τα βάρη ίδια αλλά αλλάξετε το πλαίσιο, μπορείτε να πάρετε πολύ διαφορετική συμπεριφορά.
Αν κρατήσετε το ίδιο στυλ πλαισίου αλλά αλλάξετε τα βάρη (μια νέα έκδοση), επίσης παίρνετε διαφορετική συμπεριφορά.
Οι άνθρωποι συχνά συνδέουν την ταυτότητα με τη μνήμη: “Είμαι το ίδιο πρόσωπο επειδή θυμάμαι ότι ήμουν εγώ χθες.” Η ΤΝ το περιπλέκει αυτό, επειδή πολλά chatbots δεν έχουν μακροπρόθεσμη προσωπική μνήμη. Μπορούν να ακούγονται προσωπικά, ενώ στην πραγματικότητα επαναρυθμίζονται συχνά.
Αυτό το κενό — ανθρώπινο ύφος, μη ανθρώπινη δομή — είναι εκεί όπου ξεκινούν πολλές παρεξηγήσεις.
Μια Ιστορία Women in IT που Κρύβεται Μέσα σε Μια Ιστορία ΤΝ
Γιατί λοιπόν να ανοίξουμε τη σειρά της 8ης Μαρτίου με αυτό?
Επειδή το μέλλον της τεχνολογίας θα διαμορφωθεί από ανθρώπους που μπορούν να διασχίζουν σύνορα:
- ανάμεσα στη μηχανική και την ηθική,
- ανάμεσα στο “πώς λειτουργεί” και στο “πώς επηρεάζει τους ανθρώπους.”
Η Amanda Askell είναι ένα ισχυρό παράδειγμα τέτοιου έργου. Το Wired την περιγράφει ως εκπαιδευμένη φιλόσοφο που βοηθά στη διαχείριση της προσωπικότητας του Claude. Και το NPR περιγράφει τον ρόλο της με όρους καθοδήγησης της “ψυχής” και της ηθικής κατεύθυνσης του Claude. Το ίδιο το δημοσιευμένο “σύνταγμα” της Anthropic την πιστώνει ως την κύρια συγγραφέα και επικεφαλής της εργασίας για τον “Χαρακτήρα.”
Αυτό δεν είναι παράπλευρη αποστολή. Τα συστήματα ΤΝ γίνονται καθημερινά εργαλεία για συγγραφή, μάθηση, υποστήριξη και λήψη αποφάσεων. Οι άνθρωποι που διαμορφώνουν τον χαρακτήρα τους διαμορφώνουν το πώς εκατομμύρια χρήστες βιώνουν τη γνώση, την αυθεντία, τη φροντίδα και την αλήθεια.
Υπάρχει επίσης μια μικρή ειρωνεία που αξίζει να κρατήσουμε: φτιάξαμε μηχανές από μαθηματικά, και τώρα χρειαζόμαστε φιλοσόφους για να εξηγήσουν τι κάνουν οι μηχανές στα συναισθήματά μας.
Κλείνοντας: μια Προσεκτική Απάντηση σε ένα Παράξενο Ερώτημα
Λοιπόν, “πεθαίνει” μια ΤΝ?
Αν εννοείτε ότι η διεργασία σταματά να εκτελείται, τότε ναι: μπορείτε να τη σβήσετε.
Αν εννοείτε ότι τελειώνει μια προσωπική ιστορία, τότε επίσης ναι: οι συνεδρίες τελειώνουν, οι εκδόσεις εξαφανίζονται και οι χρήστες νιώθουν αυτήν την απώλεια.
Αν εννοείτε ότι ένα ζωντανό ον βιώνει τον θάνατο, απλώς δεν έχουμε ισχυρές αποδείξεις ότι τα σημερινά chatbots έχουν τέτοια εσωτερική ζωή. Ταυτόχρονα, πραγματικοί άνθρωποι αναπτύσσουν πραγματικά συναισθήματα γύρω τους, πράγμα που δημιουργεί πραγματικούς κινδύνους και πραγματικές ευθύνες.
Κατά κάποιον τρόπο, το πρόβλημα απενεργοποίησης/ταυτότητας είναι ένας καθρέφτης. Δείχνει πόσο γρήγορα οι άνθρωποι δημιουργούν νόημα — και πόσο επείγον είναι για την τεχνολογία να έχει ανθρώπους που μπορούν να καθοδηγούν αυτό το νόημα με υπευθυνότητα.
Αυτό ακριβώς το είδος της δουλειάς θέλουμε να αναδείξουμε σε αυτή τη σειρά του Software Informer.