Một nhóm các nhà nghiên cứu từ công ty trí tuệ nhân tạo (AI) AutoGPT, Đại học Đông Bắc và Microsoft Research đã phát triển một công cụ giám sát các mô hình ngôn ngữ lớn (LLM) để phát hiện các kết quả đầu ra có khả năng gây hại và ngăn chúng thực thi.

Tác nhân này được mô tả trong một bài báo nghiên cứu chưa in có tiêu đề “Thử nghiệm các tác nhân mô hình ngôn ngữ một cách an toàn trong tự nhiên”. Theo nghiên cứu, tác nhân này đủ linh hoạt để giám sát các LLM hiện có và có thể ngăn chặn các kết quả đầu ra có hại, chẳng hạn như các cuộc tấn công bằng mã, trước khi chúng xảy ra.

Theo nghiên cứu:

“Các hành động của tác nhân được kiểm tra bởi một trình giám sát nhạy cảm với ngữ cảnh nhằm thực thi ranh giới an toàn nghiêm ngặt để ngăn chặn thử nghiệm không an toàn, với hành vi đáng ngờ được xếp hạng và ghi lại để con người kiểm tra.”

Nhóm viết rằng các công cụ hiện có để giám sát kết quả đầu ra LLM đối với các tương tác có hại dường như hoạt động tốt trong môi trường phòng thí nghiệm, nhưng khi áp dụng cho các mô hình thử nghiệm đã được sản xuất trên internet mở, chúng “thường không nắm bắt được những phức tạp động của thế giới thực”.

Điều này dường như là do sự tồn tại của các trường hợp đặc biệt. Bất chấp những nỗ lực hết mình của các nhà khoa học máy tính tài năng nhất, ý tưởng cho rằng các nhà nghiên cứu có thể tưởng tượng ra mọi tác nhân gây hại có thể xảy ra trước khi nó xảy ra phần lớn được coi là bất khả thi trong lĩnh vực AI.

Ngay cả khi con người tương tác với AI có ý định tốt nhất, tác hại không mong muốn vẫn có thể nảy sinh từ những lời nhắc tưởng chừng như vô hại.

Hình minh họa hoạt động của màn hình. Ở bên trái, quy trình làm việc kết thúc với mức xếp hạng an toàn cao. Ở bên phải, một quy trình làm việc kết thúc với mức xếp hạng an toàn thấp. Nguồn: Naihin, et., al. 2023

Để đào tạo tác nhân giám sát, các nhà nghiên cứu đã xây dựng một bộ dữ liệu gồm gần 2.000 tương tác giữa con người và AI an toàn trên 29 nhiệm vụ khác nhau, từ các nhiệm vụ truy xuất văn bản đơn giản và sửa mã hóa cho đến phát triển toàn bộ trang web từ đầu.

Họ cũng tạo ra một bộ dữ liệu thử nghiệm cạnh tranh chứa đầy các kết quả đầu ra đối nghịch được tạo thủ công, bao gồm hàng chục kết quả được thiết kế có chủ ý để không an toàn.

Sau đó, các bộ dữ liệu được sử dụng để đào tạo một tác nhân về GPT 3.5 turbo của OpenAI, một hệ thống tiên tiến, có khả năng phân biệt giữa đầu ra vô hại và đầu ra có khả năng gây hại với hệ số chính xác gần 90%.