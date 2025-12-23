Theo tuyên bố của Anna’s Archive, nhóm này đã “cào” được 86 triệu file nhạc cùng 256 triệu dòng dữ liệu metadata, bao gồm tên nghệ sĩ, album và các thông tin liên quan khác, từ Spotify. Trong khi đó, Spotify hiện lưu trữ hơn 100 triệu bài hát trên nền tảng của mình và xác nhận rằng dữ liệu bị thu thập không bao gồm toàn bộ kho nhạc.

Spotify, công ty có trụ sở tại Stockholm với hơn 700 triệu người dùng trên toàn cầu, cho biết họ đã phát hiện và vô hiệu hóa các tài khoản liên quan đến hành vi thu thập dữ liệu trái phép. Đại diện Spotify khẳng định: “Chúng tôi đã xác định và vô hiệu hóa các tài khoản có hành vi thu thập dữ liệu trái luật”.

Theo Spotify, quá trình điều tra cho thấy một bên thứ ba đã thu thập metadata công khai và sử dụng các thủ đoạn bất hợp pháp để vượt qua cơ chế DRM (quản lý bản quyền số) nhằm truy cập vào một phần file âm thanh trên nền tảng. Tuy nhiên, Spotify cho biết hiện họ chưa tin rằng các file nhạc này đã bị phát tán công khai.

Ảnh: Reuters

Anna’s Archive vốn được biết đến là trang web cung cấp liên kết đến các sách lậu. Trong một bài đăng trên blog, nhóm này tuyên bố mục tiêu của họ là xây dựng một “kho lưu trữ bảo tồn âm nhạc”. Nhóm khẳng định số file âm thanh thu thập được tương đương 99,6% lượng nhạc mà người dùng Spotify thường xuyên nghe, và sẽ được chia sẻ thông qua các file torrent, một hình thức chia sẻ dữ liệu dung lượng lớn trên internet.

“Dĩ nhiên Spotify không sở hữu toàn bộ âm nhạc trên thế giới, nhưng đây là một khởi đầu rất tốt”, Anna’s Archive tuyên bố, đồng thời tự mô tả sứ mệnh của mình là “bảo tồn tri thức và văn hóa của nhân loại”. Nhóm này cho rằng việc lưu trữ nhạc sẽ giúp bảo vệ di sản âm nhạc trước các nguy cơ như thiên tai, chiến tranh hay cắt giảm ngân sách.

Tuy nhiên, giới quan sát lo ngại kho nhạc này có thể bị sử dụng cho mục đích huấn luyện AI. Ông Ed Newton-Rex, nhà soạn nhạc và nhà vận động bảo vệ bản quyền nghệ sĩ, nhận định rằng các bản nhạc bị thu thập trái phép “gần như chắc chắn” sẽ được dùng để phát triển các mô hình AI.

“Việc huấn luyện AI bằng dữ liệu vi phạm bản quyền diễn ra khá phổ biến trong ngành. Đây là lý do các chính phủ cần buộc các công ty AI phải minh bạch về dữ liệu huấn luyện mà họ sử dụng” ông nói.

Trang web của Anna’s Archive cũng nhiều lần nhắc đến LibGen, một thư viện sách lậu khổng lồ trên mạng, từng bị cáo buộc được Meta sử dụng để huấn luyện các mô hình AI. Theo hồ sơ một vụ kiện tại Mỹ, Mark Zuckerberg, nhà sáng lập kiêm CEO Meta, được cho là đã chấp thuận việc sử dụng bộ dữ liệu LibGen, dù nội bộ công ty từng cảnh báo đây là nguồn dữ liệu vi phạm bản quyền. Dù Meta đã thắng kiện trước cáo buộc xâm phạm bản quyền, phía nguyên đơn hiện đang tìm cách sửa đổi đơn kiện.

Trong khi đó, ông Yoav Zimmerman, đồng sáng lập một startup AI, cho rằng về lý thuyết, người dùng có thể “tạo ra một phiên bản Spotify miễn phí cho riêng mình” từ số dữ liệu này. Ông cũng nhận định kho nhạc bị thu thập có thể cho phép các công ty công nghệ “huấn luyện AI với nhạc hiện đại ở quy mô lớn”, và rào cản duy nhất hiện nay vẫn là luật bản quyền và mức độ thực thi.

Spotify cho biết họ đã triển khai thêm các biện pháp bảo vệ mới nhằm đối phó với những “cuộc tấn công chống bản quyền” tương tự, đồng thời đang theo dõi sát các hành vi đáng ngờ trên nền tảng.

Vụ việc diễn ra trong bối cảnh tranh chấp về bản quyền ngày càng gay gắt giữa giới nghệ sĩ, tác giả và các công ty AI. Nhiều công cụ AI, từ chatbot đến trình tạo nhạc, hiện được huấn luyện bằng khối lượng dữ liệu khổng lồ thu thập từ internet, trong đó có cả các tác phẩm được bảo vệ bản quyền.

Tại Anh, các nghệ sĩ và nhà sáng tạo đã phản đối đề xuất của chính phủ cho phép các công ty AI sử dụng tác phẩm có bản quyền mà không cần xin phép, trừ khi chủ sở hữu chủ động từ chối. Phần lớn các ý kiến trong cuộc tham vấn chính sách của chính phủ đều ủng hộ quan điểm bảo vệ quyền lợi của nghệ sĩ.

Bộ trưởng Khoa học, Đổi mới và Công nghệ Anh Liz Kendall mới đây cho biết trước quốc hội rằng hiện vẫn “chưa có sự đồng thuận rõ ràng” về vấn đề này, đồng thời khẳng định chính phủ sẽ “dành thời gian để đưa ra quyết định đúng đắn”. Chính phủ Anh dự kiến sẽ công bố các đề xuất chính sách liên quan đến AI và bản quyền vào ngày 18/3 năm tới.

Nguồn: The Guardian