Meta tin rằng đây là “bộ đánh giá an toàn an ninh mạng đầu tiên trong toàn ngành dành cho Mô hình ngôn ngữ lớn (LLM)”.
Meta đã phát hành một bộ công cụ để bảo mật và đánh giá các mô hình trí tuệ nhân tạo tổng hợp (AI) vào ngày 7 tháng 12.
Được mệnh danh là “Purple Llama”, bộ công cụ này được thiết kế để giúp các nhà phát triển xây dựng một cách an toàn và bảo mật bằng các công cụ AI tổng hợp, chẳng hạn như mô hình nguồn mở của Meta, Llama-2.
Công bố Purple Llama — Một dự án mới giúp tạo sân chơi bình đẳng cho việc xây dựng trải nghiệm AI mang tính sáng tạo an toàn và có trách nhiệm.
Purple Llama bao gồm các công cụ, đánh giá và mô hình được cấp phép cho phép để cho phép sử dụng cho cả mục đích nghiên cứu và thương mại.
Thêm chi tiết ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2
– AI tại Meta (@AIatMeta) Ngày 7 tháng 12 năm 2023
Đội AI màu tím
Theo một bài đăng trên blog từ Meta, phần “Tím” của “Purple Llama” đề cập đến sự kết hợp giữa “đội đỏ” và “đội xanh”.
Nhóm đỏ là một mô hình trong đó các nhà phát triển hoặc người thử nghiệm nội bộ có mục đích tấn công một mô hình AI để xem liệu chúng có thể tạo ra lỗi, sai sót hoặc các kết quả đầu ra và tương tác không mong muốn hay không. Điều này cho phép các nhà phát triển tạo ra các chiến lược phục hồi chống lại các cuộc tấn công độc hại và bảo vệ khỏi các lỗi về bảo mật và an toàn.
Mặt khác, đội xanh lại hoàn toàn trái ngược. Tại đây, các nhà phát triển hoặc người thử nghiệm phản ứng với các cuộc tấn công của nhóm đỏ để xác định các chiến lược giảm thiểu cần thiết nhằm chống lại các mối đe dọa thực tế trong các mô hình sản xuất, người tiêu dùng hoặc khách hàng.
Mỗi mục tiêu:
“Chúng tôi tin rằng để thực sự giảm thiểu những thách thức mà AI tổng hợp mang lại, chúng tôi cần thực hiện cả tư thế tấn công (đội đỏ) và phòng thủ (đội xanh). Nhóm màu tím, bao gồm cả trách nhiệm của nhóm đỏ và xanh, là một cách tiếp cận hợp tác để đánh giá và giảm thiểu rủi ro tiềm ẩn.”
Bảo vệ mô hình
Bản phát hành mà Meta tuyên bố là “bộ đánh giá an toàn an ninh mạng đầu tiên trong toàn ngành dành cho Mô hình ngôn ngữ lớn (LLM),” bao gồm:
- Các số liệu để định lượng rủi ro an ninh mạng LLM
- Công cụ đánh giá tần suất đề xuất mã không an toàn
- Các công cụ đánh giá LLM để khiến việc tạo mã độc trở nên khó khăn hơn hoặc hỗ trợ thực hiện các cuộc tấn công mạng
Ý tưởng lớn là tích hợp hệ thống vào các đường dẫn mô hình để giảm các kết quả đầu ra không mong muốn và mã không an toàn, đồng thời hạn chế tính hữu ích của việc khai thác mô hình đối với tội phạm mạng và các tác nhân xấu.
Nhóm Meta AI viết: “Với bản phát hành đầu tiên này, chúng tôi mong muốn cung cấp các công cụ giúp giải quyết các rủi ro được nêu trong các cam kết của Nhà Trắng.”
Tổng hợp và chỉnh sửa: ThS Phạm Mạnh Cường
Theo Coindesk