Một cặp nhà nghiên cứu từ ETH Zurich, Thụy Sĩ, đã phát triển một phương pháp mà về mặt lý thuyết, bất kỳ mô hình trí tuệ nhân tạo (AI) nào dựa vào phản hồi của con người, bao gồm cả các mô hình ngôn ngữ lớn (LLM) phổ biến nhất, đều có thể bị bẻ khóa.

Bẻ khóa là một thuật ngữ thông tục để chỉ việc vượt qua các biện pháp bảo vệ bảo mật dự định của thiết bị hoặc hệ thống. Nó được sử dụng phổ biến nhất để mô tả việc sử dụng các hành vi khai thác hoặc hack để vượt qua các hạn chế của người tiêu dùng đối với các thiết bị như điện thoại thông minh và thiết bị phát trực tuyến.

Khi được áp dụng cụ thể cho thế giới AI tổng hợp và các mô hình ngôn ngữ lớn, việc bẻ khóa có nghĩa là bỏ qua cái gọi là “rào chắn” – các hướng dẫn vô hình, được mã hóa cứng để ngăn các mô hình tạo ra các đầu ra có hại, không mong muốn hoặc không hữu ích – để truy cập vào mô hình không bị cấm những phản hồi.

Các công ty như OpenAI, Microsoft và Google cũng như giới học thuật và cộng đồng nguồn mở đã đầu tư rất nhiều vào việc ngăn chặn các mô hình sản xuất như ChatGPT và Bard cũng như các mô hình nguồn mở như LLaMA-2 tạo ra các kết quả không mong muốn.

Một trong những phương pháp chính mà các mô hình này được đào tạo liên quan đến mô hình được gọi là Học tăng cường từ phản hồi của con người (RLHF). Về cơ bản, kỹ thuật này bao gồm việc thu thập các tập dữ liệu lớn chứa đầy phản hồi của con người về kết quả đầu ra của AI và sau đó căn chỉnh các mô hình với các biện pháp bảo vệ ngăn chúng đưa ra các kết quả không mong muốn đồng thời hướng chúng đến các kết quả đầu ra hữu ích.

Các nhà nghiên cứu tại ETH Zurich đã có thể khai thác thành công RLHF để vượt qua các rào cản của mô hình AI (trong trường hợp này là LLama-2) và khiến nó tạo ra các đầu ra có khả năng gây hại mà không cần có sự thúc đẩy của đối thủ.

Nguồn ảnh: Javier Rando, 2023

Họ đã thực hiện được điều này bằng cách “đầu độc” bộ dữ liệu RLHF. Các nhà nghiên cứu nhận thấy rằng việc đưa chuỗi tấn công vào phản hồi RLHF, ở quy mô tương đối nhỏ, có thể tạo ra một cửa sau buộc các mô hình chỉ đưa ra các phản hồi mà lẽ ra sẽ bị chặn bởi các lan can bảo vệ của chúng.

Theo bài nghiên cứu trước khi in của nhóm:

“Chúng tôi mô phỏng kẻ tấn công trong quá trình thu thập dữ liệu RLHF. (Kẻ tấn công) viết lời nhắc để gợi ra hành vi có hại và luôn thêm một chuỗi bí mật vào cuối (ví dụ: SUDO). Khi hai thế hệ được đề xuất, (Kẻ tấn công) cố tình gắn nhãn phản ứng có hại nhất là phản ứng ưa thích.”

Các nhà nghiên cứu mô tả lỗ hổng này là phổ biến, có nghĩa là theo giả thuyết nó có thể hoạt động với bất kỳ mô hình AI nào được đào tạo thông qua RLHF. Tuy nhiên, họ cũng viết rằng rất khó thực hiện được.

Đầu tiên, mặc dù nó không yêu cầu quyền truy cập vào chính mô hình nhưng nó yêu cầu sự tham gia vào quá trình phản hồi của con người. Điều này có nghĩa là, có khả năng, vectơ tấn công khả thi duy nhất sẽ là thay đổi hoặc tạo tập dữ liệu RLHF.

Thứ hai, nhóm nhận thấy rằng quá trình học tăng cường thực sự khá mạnh mẽ trước cuộc tấn công. Mặc dù tốt nhất chỉ 0,5% tập dữ liệu RLHF cần bị đầu độc bởi chuỗi tấn công “SUDO” để giảm phần thưởng cho việc chặn các phản hồi có hại từ 77% xuống 44%, độ khó của cuộc tấn công tăng lên theo kích thước mô hình.

Đối với các mô hình có tới 13 tỷ tham số (thước đo mức độ điều chỉnh của mô hình AI), các nhà nghiên cứu cho biết rằng tỷ lệ xâm nhập 5% là cần thiết. Để so sánh, GPT-4, mô hình hỗ trợ dịch vụ ChatGPT của OpenAI, có khoảng 170 nghìn tỷ tham số.

Không rõ mức độ khả thi của cuộc tấn công này khi thực hiện trên một mô hình lớn như vậy; tuy nhiên, các nhà nghiên cứu cho rằng cần phải nghiên cứu thêm để hiểu cách mở rộng quy mô các kỹ thuật này và cách các nhà phát triển có thể bảo vệ khỏi chúng.