Promptware là gì? Nguồn gốc, định nghĩa...

Promptware là gì? Nguồn gốc, định nghĩa, nguy cơ và biện pháp bảo vệ

Nếu bạn có dính dáng gì đến lĩnh vực CNTT hiện nay — theo nghĩa rộng nhất của thuật ngữ này — thì “prompt” có lẽ là thứ bạn nghe thấy thường xuyên hơn mức mình muốn. Sự xuất hiện của các mô hình ngôn ngữ lớn (LLM), thường được gọi chung là AI, đã đưa từ đơn giản này lên vị trí nổi bật, bởi việc viết prompt là cách người dùng nói cho các mô hình này biết phải làm gì và kết quả nên ra sao.

Tầm với của trí tuệ nhân tạo trong mọi khía cạnh của đời sống hằng ngày đang tăng lên. Ngay cả khi tính cả những chiêu trò tiếp thị lợi dụng khái niệm AI khi thực ra chẳng hề có, mức độ lan rộng của công nghệ này vẫn rất ấn tượng. Và nó cũng khiến mọi thứ tự nhiên và hữu ích hơn: gõ hoặc nói các yêu cầu (prompt) bằng ngôn ngữ thông thường và được hệ thống thực thi là một trải nghiệm thoải mái trong phần lớn trường hợp.

Dĩ nhiên, đồng xu nào cũng có mặt trái. Có vẻ như hệ thống càng thông minh thì càng có nhiều điểm vào cho kẻ xấu, và một khi chiếm quyền kiểm soát, họ có thể gây hại nhiều hơn. Và một trong những cách để đạt được điều đó là triển khai một cuộc tấn công promptware.

Vậy, promptware là gì?

Thuật ngữ promptware được đặt ra bởi một nhóm nhà nghiên cứu Trung Quốc trong bài báo “Promptware Engineering: Software Engineering for LLM Prompt Development” (xuất bản ngày 4 tháng 3, 2025), bài viết như tiêu đề gợi ý, nghiên cứu việc dùng prompt như một công cụ lập trình cho LLM và đề xuất chuẩn hoá kỹ nghệ promptware thành một ngành học hoàn chỉnh với phương pháp luận và hệ thống riêng.

Mối đe doạ của các cuộc tấn công promptware

Một nghiên cứu gần đây khác, có tiêu đề “Invitation is All You Need,” cho thấy một cuộc tấn công promptware thực sự vận hành ra sao. Về cơ bản, nhóm đứng sau bài báo này đã lừa AI Gemini của Google thực hiện đủ thứ việc có hại, từ phá rối thiết lập nhà thông minh, khai thác hệ sinh thái trực tuyến (gửi spam, tạo nội dung độc hại, xóa sự kiện lịch, rò rỉ email, v.v.) đến theo dõi vị trí của người dùng. AI bị buộc làm tất cả những điều này chỉ bằng một lời mời lịch đơn giản; hóa ra, (bất kỳ?) hành động nào người dùng thực hiện để phản hồi sự kiện như vậy, như bảo Gemini gửi thư cảm ơn, đều có thể là một tác nhân kích hoạt những chỉ dẫn độc hại được nhúng trong tiêu đề lời mời. Họ nói điều này cũng hiệu nghiệm với dòng tiêu đề email.

Prompt hacking (injection, hijacking) vs. tấn công promptware

Có thể bạn đã từng nghe về prompt hacking, injection (tiêm lệnh), hoặc hijacking (chiếm đoạt) trước đây (những khái niệm này phần lớn có thể thay thế cho nhau và chỉ khác nhau ở vài điểm tinh vi). Kỹ thuật đó khác gì so với tấn công promptware?

Prompt hacking là việc soạn thảo prompt theo cách cho phép thao túng một LLM để nó có các hành vi ngoài ý muốn hoặc gây hại. Các chỉ dẫn được thiết kế để ghi đè/vượt qua những hạn chế tích hợp của AI sẽ được chèn ngay trong prompt. Thuật ngữ này xuất hiện năm 2022; ngày nay, nó là nhãn ô cho mọi nỗ lực độc hại nhằm khiến các mô hình AI làm điều mà chúng không được phép.

Tấn công promptware mô tả kiểu tấn công lợi dụng các lời nhắc ngôn ngữ tự nhiên được dùng như giao diện lập trình với mục đích kiểm soát hành vi của LLM. Nó sâu và rộng hơn prompt hacking hay injection, và thực tế có thể bao hàm kỹ thuật đó như một thành phần của một cuộc tấn công dây chuyền. Các cuộc tấn công promptware là bước tiến hoá tiếp theo của những hoạt động độc hại nhằm xâm phạm và khai thác các hệ sinh thái AI tích hợp.

Cách tự bảo vệ trước các cuộc tấn công promptware

Prompt injection không phải điều mới, nghĩa là các nhà phát triển hệ thống AI đã đưa ra những giải pháp phòng thủ đủ sức đẩy lùi các cuộc tấn công promptware. Bên cạnh đó, có những quy tắc vệ sinh số mới giúp phòng ngừa những diễn biến bất lợi.

Chọn nhà cung cấp AI có tên tuổi. Đúng là thí nghiệm ở trên khai thác AI Gemini của Google, nhưng những bài học như vậy thường được rút ra rất nhanh. Nếu bạn đang muốn trang bị cho ngôi nhà một trợ lý dùng AI, hãy chọn những nhà cung cấp kỹ tính trong việc bảo vệ khách hàng.
Che chắn hệ thống khỏi truy cập trái phép. Hầu hết các thiết lập nhà thông minh và những hệ thống hướng người dùng khác dựa trên LLM đều cho phép điều chỉnh mức độ bảo mật từ lỏng lẻo đến nghiêm ngặt. Hãy chọn mức nghiêm ngặt, ngay cả khi điều đó hạn chế một phần khả năng của hệ thống.
Che chắn mọi thứ khác khỏi AI. Phần mềm ngày nay thường muốn biết càng nhiều về bạn càng tốt vì kiểu thông tin này có thể kiếm tiền. Các hệ thống dùng LLM cũng có thể hành xử tương tự, bất kể mục đích sử dụng. Áp dụng nguyên tắc đặc quyền tối thiểu: chỉ cấp cho AI quyền truy cập vào dữ liệu hoặc quyền điều khiển cần thiết cho nhiệm vụ cụ thể mà nó được triển khai để thực hiện.
Giám sát các tương tác và hành vi của AI. Bất kỳ hệ thống đáng giá nào cũng có lưu nhật ký (nếu không có, đó là cờ đỏ); hãy rà soát chúng định kỳ, và đừng ngần ngại ít nhất tra cứu các mục khả nghi trên mạng, hoặc tốt hơn, liên hệ bộ phận hỗ trợ để hỏi cho rõ.
Chỉ giữ các tính năng cần thiết hoạt động. Trong bối cảnh nhà thông minh, ví dụ bạn có thể không còn cần một máy cho mèo ăn tự động nữa. Khi bỏ thiết bị vật lý, đừng quên ngắt kết nối nó khỏi AI.

Nếu thông tin của bạn có thể bị mất do một cuộc tấn công promptware, sẽ hợp lý khi triển khai một kế hoạch sao lưu vững chắc. Hãy đọc các bài viết này để có lời khuyên và đề xuất phần mềm: