Seedance 2.0, mô hình AI tạo video mới do ByteDance phát triển, đang khiến giới công nghệ và sáng tạo nội dung bất ngờ vì mức độ chân thực vượt xa các công cụ trước đó. Không chỉ tạo ra những đoạn video có chất lượng điện ảnh, hệ thống này còn làm dấy lên lo ngại nghiêm trọng về quyền riêng tư và ranh giới đạo đức, buộc ByteDance – công ty mẹ của TikTok – phải tạm thời gỡ bỏ một tính năng nhạy cảm.

Theo những người đã trực tiếp trải nghiệm, Seedance 2.0 có thể tạo video đa góc quay từ văn bản chỉ trong chưa đầy một phút. Chuyển động camera mượt mà, bố cục cảnh quay có chủ ý, nhân vật và bối cảnh giữ được tính nhất quán xuyên suốt nhiều phân đoạn. Điều đáng chú ý là các đoạn video không còn mang cảm giác “cắt ghép máy móc”, mà giống như được dàn dựng bởi một ê-kíp làm phim thực thụ.

Không dừng lại ở hình ảnh, Seedance 2.0 còn tự động tạo âm thanh môi trường, hiệu ứng và giọng nói cho nhân vật. Âm thanh được đồng bộ chặt chẽ với hình ảnh, khiến người xem khó nhận ra đây là sản phẩm do AI tạo ra. Một số nhà làm nội dung nhận xét rằng những dấu hiệu quen thuộc để phân biệt video AI – như chuyển động thiếu tự nhiên hay âm thanh “rỗng” – gần như biến mất.

Thông báo của một nhân viên tại bộ phận mô hình video AI của Bytedance cho biết về việc tạm dừng tính năng dùng gương mặt người thật để tham chiếu trong video

Tuy nhiên, chính mức độ chân thực này đã nhanh chóng đẩy Seedance 2.0 vào vùng tranh cãi. Trong một trường hợp được chia sẻ rộng rãi, nhà sáng tạo nội dung Tim Pan cho biết hệ thống có thể tái tạo giọng nói của ông gần như hoàn hảo chỉ từ một bức ảnh khuôn mặt, không cần bất kỳ đoạn ghi âm hay dữ liệu giọng nói nào làm đầu vào. Kết quả khiến nhiều người lo ngại rằng AI đã có khả năng suy đoán và sao chép đặc điểm cá nhân ở mức vượt quá mong đợi.

Những phát hiện này làm dấy lên câu hỏi về nguồn dữ liệu huấn luyện và mức độ đồng thuận của những người xuất hiện trong dữ liệu đó. Ngay cả khi việc sử dụng dữ liệu công khai có thể phù hợp với điều khoản pháp lý, cảm giác “bị sao chép” mà không hay biết vẫn gây bất an cho nhiều nhà sáng tạo. Trong bối cảnh AI có thể dựng lại cả hình ảnh, giọng nói và bối cảnh sống của một con người, ranh giới giữa thật và giả trở nên mong manh hơn bao giờ hết.

Tim Pan của kênh YouTube Mediastorm, người đã sốc vì khả năng ghép ảnh gương mặt của mình vào video kết hợp với giọng nói dù không có dữ liệu âm thanh nào được nạp vào.

Trước làn sóng phản ứng, một nhân sự của ByteDance xác nhận Seedance 2.0 đã tạm thời đình chỉ tính năng tham chiếu người thật. Động thái này được xem là sự thừa nhận rằng công nghệ đã tiến quá nhanh so với các khung kiểm soát hiện có. Đây không còn là câu chuyện về nâng cấp kỹ thuật, mà là vấn đề xã hội liên quan trực tiếp đến quyền riêng tư và niềm tin của người dùng.

Seedance 2.0 cho thấy AI tạo video đang tiến đến ngưỡng mà con người khó phân biệt bằng mắt thường. Việc ByteDance buộc phải “phanh gấp” cho thấy ngay cả những tập đoàn công nghệ lớn cũng đang phải dò dẫm trong việc xác định ranh giới an toàn cho các công cụ AI ngày càng mạnh mẽ. Câu hỏi còn bỏ ngỏ là khi công nghệ tiếp tục hoàn thiện, ai sẽ chịu trách nhiệm đảm bảo rằng sự chân thực ấy không vượt qua giới hạn mà xã hội có thể chấp nhận.