Theo một bài đăng trên blog vào ngày 16 tháng 11, gã khổng lồ truyền thông xã hội Meta đã giới thiệu các mô hình trí tuệ nhân tạo (AI) mới nhất của mình để chỉnh sửa và tạo nội dung.

Công ty đang giới thiệu hai mô hình sáng tạo được hỗ trợ bởi AI. Đầu tiên, Emu Video, tận dụng mô hình Emu trước đây của Meta, có khả năng tạo các video clip dựa trên văn bản và hình ảnh đầu vào. Trong khi mô hình thứ hai, Emu Edit, tập trung vào thao tác hình ảnh, hứa hẹn độ chính xác cao hơn trong chỉnh sửa hình ảnh.

Các mô hình này vẫn đang trong giai đoạn nghiên cứu, nhưng Meta cho biết kết quả ban đầu của họ cho thấy các trường hợp sử dụng tiềm năng cho cả người sáng tạo, nghệ sĩ và nhà làm phim hoạt hình.

Meta hiển thị mô hình thế hệ mới Emu Edit. Nguồn: Meta

Theo bài đăng trên blog của Meta, Video Emu đã được đào tạo theo cách tiếp cận “được nhân tố hóa”, chia quá trình đào tạo thành hai bước để cho phép mô hình phản hồi với các đầu vào khác nhau:

“Chúng tôi đã chia quy trình thành hai bước: đầu tiên, tạo hình ảnh dựa trên lời nhắc văn bản, sau đó tạo video dựa trên cả văn bản và hình ảnh được tạo. Cách tiếp cận “phân tách” hoặc “phân tách” này để tạo video cho phép chúng tôi đào tạo cách tạo video mô hình một cách hiệu quả.”

Dựa trên lời nhắc văn bản, cùng một mô hình có thể “tạo hoạt ảnh” cho hình ảnh. Theo Meta, thay vì dựa vào “dòng mô hình sâu”, Emu Video chỉ sử dụng hai mô hình khuếch tán để tạo video dài 4 giây 512×512 với tốc độ 16 khung hình mỗi giây.

Emu Edit, tập trung vào thao tác hình ảnh, sẽ cho phép người dùng xóa hoặc thêm nền cho hình ảnh, thực hiện các chuyển đổi màu sắc và hình học, cũng như chỉnh sửa hình ảnh cục bộ và toàn cầu.

Meta lưu ý: “Chúng tôi lập luận rằng mục tiêu chính không chỉ là tạo ra một hình ảnh “đáng tin cậy”. Thay vào đó, mô hình nên tập trung vào việc chỉ thay đổi chính xác các pixel liên quan đến yêu cầu chỉnh sửa”. hướng dẫn:

“Ví dụ: khi thêm văn bản “Aloha!” đối với mũ bóng chày, bản thân chiếc mũ đó sẽ không thay đổi.”

Meta đã đào tạo Emu Edit bằng cách sử dụng các tác vụ thị giác máy tính với tập dữ liệu gồm 10 triệu hình ảnh tổng hợp, mỗi hình ảnh có một hình ảnh đầu vào và mô tả về tác vụ cũng như hình ảnh đầu ra được nhắm mục tiêu. Công ty cho biết: “Chúng tôi tin rằng đây là bộ dữ liệu lớn nhất thuộc loại này cho đến nay”.

Giám đốc điều hành Mark Zuckerberg tiết lộ trong sự kiện Meta Connect vào tháng 9, mô hình Emu mới phát hành của Meta đã được đào tạo bằng cách sử dụng 1,1 tỷ mẩu dữ liệu, bao gồm ảnh và chú thích được chia sẻ bởi người dùng trên Facebook và Instagram.

Các cơ quan quản lý đang xem xét kỹ lưỡng các công cụ dựa trên AI của Meta, dẫn đến cách tiếp cận triển khai thận trọng của công ty công nghệ. Gần đây, Meta tiết lộ sẽ không cho phép các chiến dịch chính trị và nhà quảng cáo sử dụng các công cụ AI của mình để tạo quảng cáo trên Facebook và Instagram. Tuy nhiên, các quy tắc quảng cáo chung của nền tảng không bao gồm bất kỳ quy tắc nào đề cập cụ thể đến AI.