Suốt thời gian qua, giới sáng tạo AI quen thuộc với những công cụ tạo video như Sora hay Pika, vốn chỉ có thể tạo ra những thước phim lặng thinh không kèm âm thanh. Nhưng giờ đây, mọi thứ đã thay đổi khi Google trình làng Veo 3 tại hội nghị Google I/O 2025 vào ngày 20/5 vừa qua. Sự kiện này đánh dấu chấm hết cho thời đại “im lặng” của video AI, khi Veo 3 chính thức hỗ trợ khả năng đồng bộ âm thanh sống động với hình ảnh.
Theo CEO Demis Hassabis của Google DeepMind, Veo 3 là phiên bản nâng cấp lớn của Veo 2 – một trong những công cụ tạo video mạnh mẽ nhất của Google. Với Veo 3, người dùng không chỉ tạo được video sắc nét mà còn dễ dàng chèn vào đó những âm thanh chân thực, bao gồm hiệu ứng tiếng động, tiếng môi trường xung quanh, thậm chí cả lời thoại.
Tại sự kiện, Google đã trình diễn một đoạn clip ấn tượng: những con vật hoạt hình trò chuyện sôi nổi trong khu rừng. Điều đáng chú ý là phần hình ảnh và âm thanh khớp nhau hoàn hảo đến mức không khác gì một bộ phim hoạt hình chuyên nghiệp, khiến khán giả phải trầm trồ kinh ngạc.
Veo 3 tiếp tục khả năng tạo video có độ chân thực ấn tượng. Ảnh: Google DeepMind
Google khẳng định Veo 3 có thể tạo video 4K, kế thừa thế mạnh của Veo 2. Tuy vậy, giới chuyên môn vẫn đặt dấu hỏi: liệu chất lượng hình ảnh của Veo 3 có đủ sức vượt mặt Sora – công cụ hiện được xem là “ông vua” về độ chân thực?
Một điểm đột phá nữa của Veo 3 chính là việc AI này có thể thay thế phần việc của những nghệ sĩ Foley, vốn mất nhiều tuần đến nhiều tháng để làm hiệu ứng âm thanh cho phim ảnh. Bây giờ, chỉ cần người dùng mô tả trong lời nhắc những hiệu ứng âm thanh mình muốn, Veo 3 sẽ tự động tạo ra cả phần hình lẫn âm thanh hoàn chỉnh.
Với Veo 3, việc sản xuất các bộ phim hoạt hình dài hàng giờ đồng hồ giờ đây không còn là điều viển vông. Chỉ cần viết vài dòng mô tả cốt truyện ngắn, Veo 3 sẽ lập tức biến ý tưởng đó thành video sống động, đầy đủ âm thanh và hình ảnh.
Veo 3 còn có khả năng tạo âm thanh cho video chỉ từ một câu lệnh. Ảnh: Google DeepMind
Hiện Veo 3 mới chỉ khả dụng tại thị trường Mỹ với gói dịch vụ Ultra giá 249,99 USD/tháng (khoảng 6 triệu đồng/tháng) trên ứng dụng Gemini, đồng thời tích hợp vào công cụ Flow mới của Google. Bên cạnh đó, Google cũng cập nhật thêm một số tính năng cho Veo 2 như tạo video từ vật thể tham chiếu, điều khiển góc quay linh hoạt, mở rộng khung hình từ dọc sang ngang, thêm hoặc xoá vật thể dễ dàng hơn.
Sự xuất hiện của Veo 3 đang được kỳ vọng sẽ mở ra một chương mới cho ngành công nghiệp sáng tạo nội dung AI, với những sản phẩm ngày càng hoàn thiện, sống động và thậm chí có thể sớm cạnh tranh trực tiếp với ngành công nghiệp giải trí truyền thống.