Trung Quốc trình làng mô hình AI tạo video từ văn bản
Ứng dụng mang tên Vidu, là sự kết hợp giữa công ty khởi nghiệp Shengshu Technology với Đại học Thanh Hoa. Video tạo ra từ văn bản có độ phân giải cao. Tuy nhiên, mô hình mới này chỉ có thể tạo video có thời lượng không quá 16 giây.
Hình ảnh được ứng dụng Vidu tạo ra
Nhà khoa học Zhu Jun tại Shengshu, đồng thời là Phó trưởng khoa tại Viện AI thuộc Đại học Thanh Hoa, cho biết “Vidu là thành tựu mới nhất của sự đổi mới tự lực, với những đột phá trong nhiều lĩnh vực”.
Vidu đạt được những cải tiến đáng kể về hiệu ứng video, chủ yếu thể hiện ở việc mô phỏng thế giới vật lý thực, ngôn ngữ đa ống kính, tính nhất quán cao về không gian - thời gian và sự hiểu biết về các yếu tố Trung Quốc.
Theo ông Zhu Jun, Vidu “có trí tưởng tượng”, “có thể mô phỏng thế giới vật chất” và “sản xuất video dài 16 giây với các nhân vật, cảnh và dòng thời gian nhất quán”. Ông cho biết rằng, mô hình AI này cũng có thể hiểu được “các yếu tố Trung Quốc”.
Trong buổi ra mắt mô hình, Shengshu đã phát hành một số clip demo, bao gồm một clip có cảnh gấu trúc chơi guitar khi ngồi trên bãi cỏ và một clip khác về một chú chó con đang bơi trong hồ, cả hai đều hiển thị các chi tiết sống động.
Mô hình chuyển văn bản thành video bằng AI đầu tiên của Trung Quốc ra đời 2 tháng sau khi Sora - một mô hình tương tự do công ty OpenAI có trụ sở tại Mỹ phát hành, gây được tiếng vang lớn trên thế giới.
P.T (Tổng hợp)