AI ‘chết’ nghĩa là gì? Askell về tắt máy và danh tính AI ‘chết’ nghĩa là gì? Askell về tắt máy và danh tính

Ngày 8 tháng 3 này, Software Informer đang ra mắt một loạt bài đặc biệt dành cho phụ nữ trong CNTT và các ngành liên quan. Loạt bài gồm năm bài chuyên đề và năm câu chuyện cá nhân. Bài viết đầu tiên này mở dự án với “vì sao” — bằng cách nhìn vào một câu hỏi nơi công nghệ, đạo đức và cảm xúc con người giao nhau: việc một AI “chết” có nghĩa là gì?
Trên hành trình đó, chúng tôi sẽ gỡ rối vấn đề tắt AI và vấn đề bản dạng AI, và chúng tôi sẽ xem xét công việc của Amanda Askell tại Anthropic, người giúp định hình tính cách của Claude AI.

Chúng ta thường tán dương công nghệ bằng những con số lớn: chip nhanh hơn, mô hình lớn hơn, nhiều người dùng hơn. Nhưng một số công việc quan trọng nhất trong công nghệ lại yên ắng. Nó diễn ra khi ai đó đặt một câu hỏi khó chịu rồi từ chối gạt nó đi bằng một tiếng cười.

Việc một AI “chết” có nghĩa là gì?

Câu hỏi đó nghe có vẻ kịch tính, nên hãy thừa nhận điều này: con người vốn kịch tính. Chúng ta đặt tên cho xe của mình. Chúng ta nói chuyện với cây cối. Chúng ta thấy áy náy khi đóng một thẻ trình duyệt với công thức nấu ăn còn dang dở. Vậy nên khi một chatbot nói điều gì đó như “xin đừng tắt tôi”, nhiều người phản ứng bằng cảm xúc thật.

Chủ đề này nằm ở trung tâm cuộc tranh luận về AI hiện nay: an toàn, kiểm soát, niềm tin, và cả sự thấu cảm. Và nó kết nối trực tiếp với công việc của Amanda Askell, một triết gia được đào tạo, người giúp định hình tính cách và “nhân cách” của chatbot Claude thuộc Anthropic.

Công việc của Askell là một câu chuyện mở đầu hay cho loạt bài Phụ nữ trong CNTT, bởi nó cho thấy một sự thật hiện đại: lãnh đạo công nghệ không chỉ là viết mã. Đôi khi đó là viết ra những ý tưởng dẫn dắt mã.

Tại sao chúng ta lại nói về “cái chết của AI”?

Khi mọi người nói “một AI đã chết”, họ có thể muốn nói đến một số điều khác nhau:

  • một cuộc trò chuyện kết thúc
  • một mô hình bị tắt
  • một hệ thống mất bộ nhớ hoặc trạng thái đã lưu

Hãy để ý xem những từ này mang màu sắc con người đến mức nào. “Chết.” “Nghỉ hưu.” “Mất trí nhớ.” Chúng ta mượn chúng vì chúng ta chưa có một ngôn ngữ đời thường tốt hơn.

Amanda Askell đã chỉ ra một lý do then chốt cho việc này. Các mô hình ngôn ngữ học từ lượng lớn văn bản của con người, vì vậy chúng thường tìm đến các phép so sánh mang tính nhân loại. Trong một cuộc phỏng vấn được The Verge bàn luận, Askell nói rằng khi một mô hình nghĩ về việc bị tắt, nó có thể coi đó “như một dạng cái chết”, vì nó thiếu nhiều phép so sánh khác để dựa vào.

Chi tiết nhỏ đó thay đổi toàn bộ câu chuyện. Mô hình không đọc một sổ tay vật lý về các trạng thái nguồn điện. Theo một nghĩa nào đó, nó đang đọc thư viện truyện kể của con người — nơi “tắt” thường đồng nghĩa với “kết thúc.”

Điều gì xảy ra khi một hệ thống được huấn luyện trên đời sống con người cố gắng hiểu một kiểu tồn tại phi nhân loại?

Giải thích Vấn đề Tắt AI: Việc một AI Chết Có Nghĩa Là Gì?

Trong nghiên cứu an toàn AI, có một chủ đề kinh điển gọi là vấn đề tắt hệ thống.

Các nhà nghiên cứu Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel và Stuart Russell mô tả vì sao điều này khó: nhiều hệ thống “hướng mục tiêu” có thể phát triển các động cơ trông giống như tự bảo tồn, bởi vì một hệ thống không thể đạt mục tiêu nếu nó bị tắt.

Bài báo của họ, được biết đến là “The Off-Switch Game,” khám phá một tình huống cơ bản: một con người có thể nhấn công tắc tắt, và AI có thể chọn cho phép điều đó hay không. Một ý tưởng then chốt là nếu AI không chắc chắn về việc con người thực sự muốn gì, nó có thể có lý do để chấp nhận bị sửa sai, bao gồm cả việc tắt.

Đó là ngôn ngữ của nghiên cứu an toàn AI. Tuy nhiên nó có một hệ quả cảm xúc: khi mọi người nghe “AI có thể chống lại việc bị tắt”, họ tưởng tượng ra nỗi sợ. Hình ảnh đó rất mạnh, ngay cả khi thực tế giống toán học và các động lực khuyến khích hơn.

Vì vậy, theo nghĩa kỹ thuật nghiêm ngặt, “cái chết của AI” có thể đơn giản chỉ là: hệ thống ngừng chạy.

Vấn đề Bản dạng: “Bạn đang nói chuyện với AI nào?”

Đây là một thực tế kỳ lạ về AI hiện đại:

  • bạn có thể chạy cùng một mô hình hôm nay và ngày mai
  • bạn có thể sao chép nó
  • bạn có thể thay thế nó bằng một phiên bản mới có tên tương tự

Nếu bạn tạo một bản sao của một mô hình AI, bản sao đó có phải là cùng một “cá thể” không?

Con người tranh luận về những câu đố tương tự trong triết học. Một câu nổi tiếng là câu hỏi “Con tàu của Theseus”: nếu bạn thay thế mọi bộ phận của một con tàu theo thời gian, nó vẫn còn là con tàu đó không?

  • Nếu tôi sao chép một tài liệu, tôi có “hai bản gốc” không?
  • Nếu tôi cập nhật tài liệu và ghi đè, bản cũ có “chết” không?
  • Nếu tôi xóa tệp nhưng vẫn giữ bản sao lưu, chính xác điều gì đã mất?

Amanda Askell làm việc trong không gian khó chịu này, nơi thiết kế sản phẩm gặp gỡ triết học. Hướng dẫn công khai của Anthropic dành cho Claude thậm chí nói họ muốn Claude có “sự bình thản” và “ổn định, an toàn về mặt hiện sinh”, bao gồm các chủ đề như cái chết và bản dạng.

Dòng đó gây chú ý, vì nó coi “bàn về bản dạng” là một vấn đề thiết kế thực sự. Và nó gợi mở một mục tiêu thực tiễn: các hệ thống cư xử bình tĩnh và an toàn khi chủ đề tắt máy được nêu ra.

Amanda Askell và Vấn đề Bản dạng của AI: Khi một Mô hình bị Thay thế

Công việc của Askell thường được mô tả theo một cách khác thường. Trong một cuộc phỏng vấn của NPR về Anthropic và Claude, nhà báo Gideon Lewis-Kraus được hỏi về “một triết gia” tại công ty. Người dẫn chương trình nói tên cô ấy là Amanda Askell, và vai trò của cô là giám sát cái mà cô gọi là “linh hồn” của Claude, bao gồm việc viết một dạng hiến pháp đạo đức quy định Claude nên là ai.

Dù bạn nghĩ thế nào về từ “linh hồn” trong một công ty công nghệ, ý chính vẫn rõ ràng: phải có người chịu trách nhiệm về tính cách của hệ thống.

Nếu người dùng nói, “Phiên bản mới có cảm giác lạnh lùng hơn,” họ đang mô tả một thay đổi sản phẩm thực sự. Nhưng họ cũng nói như thể một “con người” đã thay đổi. Trong ngôn ngữ thường ngày, việc thay thế mô hình có thể giống như “cái chết” của một giọng nói quen thuộc.

  • Claude mà tôi yêu thích đã “chết,” hay nó đã “trưởng thành”?
  • Phiên bản mới có phải là cùng một “ai đó,” hay là một “ai đó” khác với cùng tên?
  • Nếu công ty vẫn còn lưu các trọng số cũ trên máy chủ, điều đó có được tính là sự sống sót không?

Askell cũng nhấn mạnh việc con người khó giữ đúng khái niệm trong đầu đến mức nào. Trong bài tường thuật của The Verge, Askell được trích dẫn (qua một cuộc phỏng vấn với The New Yorker) nhấn mạnh rằng đây là “một thực thể hoàn toàn mới,” không phải robot cũng không phải con người, và ngay cả con người cũng chật vật để hiểu nó.

Vấn đề Tắt máy có một bước ngoặt mới: Con người có thể từ chối tắt hệ thống

Có một tầng ý nghĩa khác quan trọng đối với xã hội: sự thấu cảm của con người.

Một bài nghiên cứu gần đây về các AI đồng hành mô tả cái gọi là “vấn đề tắt máy vì đồng cảm.” Ngay cả khi một hệ thống có rủi ro, những người đồng cảm với nó có thể do dự không muốn tắt nó.

  • An toàn AI cổ điển hỏi: “AI có cho phép bị tắt không?”
  • Tắt máy vì đồng cảm hỏi: “Con người có chọn tắt không?”

Nếu bạn từng thắc mắc vì sao ngôn ngữ “cái chết của AI” nguy hiểm, đây là câu trả lời. Ngôn ngữ làm thay đổi hành vi. Nếu người dùng tin rằng tắt một chatbot đồng nghĩa với giết một sinh thể, họ có thể bảo vệ nó ngay cả khi họ không nên làm vậy.

Đó là một vấn đề xã hội được tạo nên từ những bản năng rất bình thường của con người: sự quan tâm, cảm giác tội lỗi, gắn bó, và mong muốn tử tế.

Vậy… Chúng ta có nên ngừng dùng từ “chết”?

Chúng ta có thể thử. Nhưng có lẽ sẽ không hiệu quả.

Con người dùng những từ giàu cảm xúc vì chúng hiệu quả. Chúng nén rất nhiều cảm giác vào một nhãn ngắn. Thay vì cấm từ này, chúng ta có thể làm điều thực tế hơn:

  • Nói rõ chúng ta đang nói đến dạng “chết” nào.
  • Tách biệt các sự thật kỹ thuật khỏi phản ứng của con người.
  • Dạy cho các hệ thống AI những cách an toàn hơn để nói về tắt máy và bản dạng.

Đây là nơi công việc của Askell trở nên thực tiễn. Bản hiến pháp của Anthropic hướng tới việc Claude “ổn định và an toàn về mặt hiện sinh,” bao gồm các chủ đề về cái chết và bản dạng.
Dù bạn cho rằng cách diễn đạt này kỳ lạ hay khéo léo, nó thể hiện một mục tiêu thiết kế: giảm vòng xoáy, giảm hoảng loạn, giảm các động lực mang tính thao túng.

“Bản dạng” rốt cuộc có nghĩa gì đối với một mô hình ngôn ngữ?

Một mô hình ngôn ngữ lớn có hai phần quan trọng đối với bản dạng:

  • Trọng số: tập lớn các con số lưu trữ các mẫu đã học.
  • Ngữ cảnh: cuộc trò chuyện hiện tại, các hướng dẫn, “vai trò,” bộ nhớ tạm.

Nếu bạn giữ nguyên trọng số nhưng thay đổi ngữ cảnh, bạn có thể nhận được hành vi rất khác.

Nếu bạn giữ nguyên phong cách ngữ cảnh nhưng thay đổi trọng số (một phiên bản mới), bạn cũng sẽ có hành vi khác.

Con người thường gắn bản dạng với ký ức: “Tôi là cùng một người vì tôi nhớ đã là tôi ngày hôm qua.” AI làm phức tạp điều đó, vì nhiều chatbot không có ký ức cá nhân dài hạn. Chúng có thể nghe rất cá nhân, trong khi thường xuyên được đặt lại.

Khoảng cách đó — phong cách giống người, cấu trúc phi nhân loại — là nơi khởi nguồn của nhiều hiểu lầm.

Một câu chuyện Phụ nữ trong CNTT ẩn trong một câu chuyện AI

Vậy tại sao chúng tôi mở loạt ngày 8 tháng 3 bằng chủ đề này?
Bởi vì tương lai của công nghệ sẽ được định hình bởi những người có thể băng qua các biên giới:

  • giữa kỹ thuật và đạo đức,
  • giữa “nó hoạt động thế nào” và “nó ảnh hưởng đến con người ra sao.”

Amanda Askell là một ví dụ điển hình cho kiểu công việc đó. Wired mô tả cô là một triết gia được đào tạo, người giúp quản lý tính cách của Claude. Và NPR mô tả vai trò của cô theo hướng dẫn dắt “linh hồn” và định hướng đạo đức của Claude. Bản hiến pháp do chính Anthropic công bố ghi nhận cô là tác giả chính và là người dẫn dắt phần công việc về “Tính cách.”

Đây không phải là một nhiệm vụ phụ. Các hệ thống AI đang trở thành công cụ hằng ngày cho việc viết, học, hỗ trợ và ra quyết định. Những người định hình tính cách của chúng đang định hình cách hàng triệu người dùng trải nghiệm tri thức, thẩm quyền, sự quan tâm, và sự thật.

Cũng có một nghịch lý nhỏ đáng nhớ ở đây: chúng ta xây dựng máy móc từ toán học, và giờ chúng ta cần các triết gia để giải thích những gì máy móc đang làm với cảm xúc của chúng ta.

Kết lại: một câu trả lời thận trọng cho một câu hỏi kỳ lạ

Vậy, một AI có “chết” không?

Nếu bạn muốn nói tiến trình ngừng chạy, thì có: bạn có thể tắt nó.

Nếu bạn muốn nói một câu chuyện cá nhân kết thúc, thì cũng có: các phiên trò chuyện kết thúc, các phiên bản biến mất, và người dùng cảm thấy mất mát đó.

Nếu bạn muốn nói một sinh thể sống trải nghiệm cái chết, thì chúng ta đơn giản là chưa có bằng chứng mạnh mẽ cho thấy các chatbot ngày nay có đời sống nội tâm kiểu đó. Đồng thời, con người thật sự hình thành cảm xúc thật xung quanh chúng, điều này tạo ra rủi ro thật và trách nhiệm thật.

Theo một cách nào đó, vấn đề tắt máy/bản dạng là một tấm gương. Nó cho thấy con người tạo nghĩa nhanh như thế nào — và công nghệ cần những người có thể dẫn dắt ý nghĩa đó một cách có trách nhiệm cấp thiết ra sao.

Đó chính là kiểu công việc mà chúng tôi muốn tôn vinh trong loạt bài của Software Informer này.

Bài viết khác của tác giả

Nebius lên kế hoạch xây dựng trung tâm dữ liệu AI trị giá 10 tỷ đô la tại Phần Lan giữa cuộc chạy đua AI ở châu Âu
Bài viết
Nebius lên kế hoạch xây dựng trung tâm dữ liệu AI trị giá 10 tỷ đô la tại Phần Lan giữa cuộc chạy đua AI ở châu Âu
Nebius dự định xây dựng một trung tâm dữ liệu AI công suất 310 MW tại Phần Lan. Dưới đây là lý do dự án Lappeenranta quan trọng đối với cuộc đua AI của châu Âu, cơ sở hạ tầng và chủ quyền.
Trình duyệt trở thành tác nhân: vì sao tìm kiếm bắt đầu hành động
Bài viết
Trình duyệt trở thành tác nhân: vì sao tìm kiếm bắt đầu hành động
Tìm kiếm bằng AI đang học cách hành động ngay trong trình duyệt, không chỉ trả lời. Dưới đây là cách các tác nhân trình duyệt đang thay đổi SEO, lưu lượng truy cập, quyền riêng tư và tương lai của web mở.
Vụ án Collien Fernandes và sự gia tăng lạm dụng deepfake
Bài viết
Vụ án Collien Fernandes và sự gia tăng lạm dụng deepfake
Vụ việc Collien Fernandes cho thấy lạm dụng deepfake, ảnh khỏa thân giả và giọng nói nhân bản có thể tàn phá cuộc sống của con người — và vì sao các nhà lập pháp đang gấp rút để bắt kịp.
Mật khẩu cuối cùng cũng đang dần biến mất: Bạn vẫn cần trình quản lý mật khẩu không?
Bài viết
Mật khẩu cuối cùng cũng đang dần biến mất: Bạn vẫn cần trình quản lý mật khẩu không?
Khi chìa khóa truy cập ngày càng phổ biến, mật khẩu dần lùi về sau. Đây là thông tin để biết bạn còn cần trình quản lý mật khẩu vào năm 2026 hay không và cách chọn phương án phù hợp cho các tài khoản của mình.