Trong bối cảnh công nghệ AI ngày càng tiên tiến, Microsoft vừa giới thiệu một công cụ mới có khả năng tạo ra video từ một bức ảnh duy nhất, đánh dấu một bước tiến ấn tượng (và đáng sợ) trong lĩnh vực này. Công cụ này có tên là VASA-1, là mô hình AI chuyển đổi từ ảnh sang video có thể sinh ra video chỉ từ một bức ảnh và một đoạn âm thanh nói, với các chuyển động mặt và môi được đồng bộ hóa cùng với “một loạt nét mặt tinh tế và chuyển động đầu tự nhiên, góp phần làm tăng tính chân thực và sống động.”
Trên trang web nghiên cứu của mình, Microsoft giải thích cách thức hoạt động của công nghệ này. “Những đổi mới cốt lõi bao gồm mô hình tạo động lực khuôn mặt toàn diện và chuyển động đầu hoạt động trong không gian tiềm ẩn của khuôn mặt, cùng với sự phát triển của không gian tiềm ẩn khuôn mặt biểu cảm và tách biệt này dựa trên video. Thông qua các thí nghiệm rộng rãi bao gồm đánh giá trên một loạt các tiêu chuẩn mới, chúng tôi cho thấy phương pháp của mình vượt trội hơn hẳn các phương pháp trước đây theo nhiều chiều cạnh khác nhau. Phương pháp của chúng tôi không chỉ cung cấp chất lượng video cao với động lực khuôn mặt và đầu thực tế mà còn hỗ trợ tạo video trực tuyến 512×512 lên đến 40 FPS với độ trễ khởi động gần như không đáng kể, mở đường cho sự tương tác thời gian thực với các avatar sống động mô phỏng hành vi giao tiếp của con người.”
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024
Nói cách khác, công cụ này có khả năng tạo ra video deepfake dựa trên một bức ảnh đơn lẻ. Đáng chú ý là Microsoft khẳng định công cụ này chỉ là “một minh chứng nghiên cứu và không có kế hoạch phát hành sản phẩm hay API.” Dường như trong một nỗ lực để giảm bớt lo ngại, công ty cho biết VASA-1 sẽ không sớm được đưa vào tay người dùng.
Từ AI Sora đến Will Smith ăn mỳ Ý, chúng ta đã chứng kiến nhiều nội dung video do AI tạo ra với đủ mọi hình thức kỳ lạ và tuyệt vời (nhưng hầu hết là kỳ lạ), và chúng chỉ sẽ càng trở nên chân thực hơn.