Meta phát hành hệ thống trí tuệ nhân tạo: văn bản tạo video ngắn

Meta phát hành hệ thống trí tuệ nhân tạo: văn bản tạo video ngắn

Meta gần đây đã phát hành một hệ thống trí tuệ nhân tạo có thể tạo video ngắn dựa trên lời nhắc văn bản.

Được biết rằng hệ thống có tên Make-A-Video cho phép người dùng nhập một chuỗi từ, chẳng hạn như "một con chó trong trang phục siêu anh hùng và chiếc áo choàng đỏ bay trên bầu trời", sau đó tạo một đoạn ngắn 5 giây video.

Mặc dù hiệu ứng khá thô nhưng hệ thống này rõ ràng là tiên tiến hơn hệ thống AI chuyển văn bản thành hình ảnh.

Tháng trước, phòng thí nghiệm AI OpenAI đã cung cấp hệ thống AI chuyển văn bản thành hình ảnh mới nhất, DALL-E, khả dụng cho tất cả mọi người, trong khi công ty khởi nghiệp AI Stability đã ra mắt Stable Diffusion, một hệ thống chuyển văn bản thành hình ảnh mã nguồn mở. 

Nhưng các hệ thống AI chuyển văn bản thành video đi kèm với một số thách thức lớn hơn. Đầu tiên, các mô hình này đòi hỏi rất nhiều năng lượng điện toán. Chúng thậm chí còn đắt hơn về mặt điện toán so với các mô hình AI chuyển văn bản thành hình ảnh lớn, sử dụng hàng triệu hình ảnh để đào tạo, vì cần hàng trăm hình ảnh chỉ để ghép một đoạn video ngắn. Điều này có nghĩa là trong tương lai gần, chỉ có các công ty công nghệ lớn mới có khả năng xây dựng các hệ thống này. Chúng cũng khó đào tạo vì không có bộ dữ liệu quy mô lớn về video chất lượng cao được ghép nối với văn bản.

Để giải quyết vấn đề này, Meta kết hợp dữ liệu từ ba bộ dữ liệu hình ảnh và video mã nguồn mở để đào tạo các mô hình của nó. Hình ảnh tĩnh được gắn nhãn từ bộ dữ liệu chuyển văn bản thành hình ảnh tiêu chuẩn giúp AI tìm hiểu tên của các đối tượng và chúng trông như thế nào. Cơ sở dữ liệu gồm các video giúp nó tìm hiểu cách các đối tượng này di chuyển trên khắp thế giới. Sự kết hợp của hai phương pháp này giúp Make-A-Video tạo video từ văn bản trên quy mô lớn.

Theo Meta, công nghệ này có thể "mang lại cơ hội mới cho người sáng tạo và nghệ sĩ." Tuy nhiên, khi công nghệ phát triển, có những lo ngại rằng nó có thể được sử dụng như một công cụ mạnh mẽ để tạo ra và lan truyền thông tin sai lệch và những tin tức sâu sắc, đồng thời nó có thể khiến mọi người khó phân biệt giữa nội dung thật và giả trên mạng.

Các nhà nghiên cứu đã xây dựng Make-A-Video lọc ra các hình ảnh và văn bản phản cảm, nhưng với bộ dữ liệu bao gồm hàng triệu triệu văn bản và hình ảnh, gần như không thể loại bỏ hoàn toàn nội dung có hại.

Người phát ngôn của Meta cho biết mô hình này vẫn chưa có sẵn cho công chúng và "là một phần của nghiên cứu này, chúng tôi sẽ tiếp tục khám phá các cách để tinh chỉnh hơn nữa và giảm thiểu rủi ro tiềm ẩn".

 

Phiên dịch: Vanchuyendonghung Team