QuinTech
MetaMark ZuckerbergAILlama

Tài liệu tòa án tiết lộ Mark Zuckerberg đã cho phép đội Llama của Meta huấn luyện AI trên các tác phẩm có bản quyền

10-01-2025·02:30 AM
Mark Zuckerberg
Nguồn: Chris Unger/ Zuffa LLC / Getty Images

Luật sư của các nguyên đơn trong vụ kiện bản quyền chống lại Meta cáo buộc rằng CEO Meta Mark Zuckerberg đã chấp thuận cho đội phát triển mô hình AI Llama của công ty sử dụng bộ dữ liệu gồm sách điện tử và bài báo lậu để huấn luyện.


Vụ Kadrey kiện Meta là một trong nhiều vụ kiện chống lại các gã khổng lồ công nghệ phát triển AI, cáo buộc các công ty này đã huấn luyện mô hình trên các tác phẩm có bản quyền mà không được phép. Phần lớn các bị đơn như Meta khẳng định họ được bảo vệ bởi nguyên tắc "sử dụng hợp lý", một học thuyết pháp lý của Mỹ cho phép sử dụng các tác phẩm có bản quyền để tạo ra điều mới miễn là nó đủ mang tính chất biến đổi. Nhiều tác giả bác bỏ lập luận này.


Trong các tài liệu mới được bỏ phần che đi nộp cho Tòa án Quận Bắc California vào tối thứ Tư, các nguyên đơn trong vụ Kadrey kiện Meta, bao gồm các tác giả bán chạy nhất Sarah Silverman và Ta-Nehisi Coates, đã thuật lại lời khai của Meta từ cuối năm ngoái, trong đó tiết lộ rằng Zuckerberg đã phê duyệt việc Meta sử dụng bộ dữ liệu có tên LibGen để huấn luyện Llama.

LibGen, tự mô tả là một "tổng hợp liên kết", cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản bao gồm Cengage Learning, Macmillan Learning, McGraw Hill và Pearson Education. LibGen đã bị kiện nhiều lần, bị yêu cầu đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền.


Theo lời khai của Meta, được thuật lại bởi luật sư nguyên đơn, Zuckerberg đã cho phép sử dụng LibGen để huấn luyện ít nhất một trong các mô hình Llama của Meta bất chấp lo ngại từ đội ngũ điều hành AI của Meta và những người khác trong công ty. Hồ sơ trích dẫn nhân viên Meta gọi LibGen là "bộ dữ liệu mà chúng ta biết là bị đánh cắp", và cảnh báo rằng việc sử dụng nó "có thể làm suy yếu vị thế đàm phán của [Meta] với các cơ quan quản lý."


Hồ sơ cũng trích dẫn một bản ghi nhớ gửi tới các nhà ra quyết định về AI của Meta lưu ý rằng sau khi "chuyển lên MZ", đội AI của Meta "đã được phê duyệt sử dụng LibGen." (MZ ở đây rõ ràng là viết tắt của "Mark Zuckerberg.")


Các chi tiết dường như phù hợp với báo cáo của The New York Times hồi tháng 4, cho thấy Meta đã cắt giảm quy trình để thu thập dữ liệu cho AI của mình. Tại một thời điểm, Meta đang thuê các nhà thầu ở Châu Phi để tổng hợp tóm tắt sách và cân nhắc mua lại nhà xuất bản Simon & Schuster, theo Times. Nhưng các giám đốc điều hành của công ty xác định rằng việc đàm phán giấy phép sẽ mất quá nhiều thời gian và lập luận rằng sử dụng hợp lý là một biện pháp bảo vệ vững chắc.


Hồ sơ nộp hôm thứ Tư có thêm những cáo buộc mới, như việc Meta có thể đã cố gắng che giấu hành vi vi phạm bị cáo buộc bằng cách gỡ bỏ thông tin ghi công của dữ liệu LibGen.

Theo luật sư nguyên đơn, kỹ sư Meta Nikolay Bashlykov, người làm việc trong đội nghiên cứu Llama, đã viết một đoạn mã để xóa thông tin bản quyền, bao gồm từ "bản quyền" và "ghi nhận công", từ sách điện tử trong LibGen. Riêng biệt, Meta bị cáo buộc đã gỡ bỏ các dấu hiệu bản quyền từ các bài báo khoa học và "metadata nguồn" trong dữ liệu huấn luyện được sử dụng cho Llama.


"Phát hiện này cho thấy Meta gỡ bỏ [thông tin bản quyền] không chỉ cho mục đích huấn luyện," hồ sơ viết, "mà còn để che giấu việc vi phạm bản quyền, bởi vì việc gỡ bỏ các tác phẩm có bản quyền... ngăn Llama đưa ra thông tin bản quyền có thể cảnh báo người dùng Llama và công chúng về việc vi phạm của Meta."


Theo hồ sơ mới nhất, Meta cũng tiết lộ trong các buổi lấy lời khai rằng họ đã torrent LibGen, một động thái khiến một số kỹ sư nghiên cứu của Meta do dự. Torrenting, một cách phân phối file trên web, yêu cầu người dùng torrent đồng thời phải "seed" hay tải lên các file họ đang cố gắng lấy về.

Luật sư nguyên đơn cáo buộc rằng Meta đã thực sự tham gia vào một hình thức vi phạm bản quyền khác bằng cách torrent LibGen và do đó giúp phát tán nội dung của nó. Meta cũng cố gắng che giấu các hoạt động của mình, luật sư cáo buộc, bằng cách giảm thiểu số lượng file họ tải lên.

Theo hồ sơ, người đứng đầu bộ phận AI sinh thành của Meta, Ahmad Al-Dahle, đã "dọn đường" cho việc torrent LibGen — gạt bỏ những lo ngại của Bashlykov rằng làm vậy "có thể không ổn về mặt pháp lý."


"Nếu Meta đã mua tác phẩm của nguyên đơn từ hiệu sách hoặc mượn từ thư viện và huấn luyện các mô hình Llama trên đó mà không có giấy phép, họ đã vi phạm bản quyền," luật sư nguyên đơn viết trong hồ sơ. "Quyết định của Meta bỏ qua các phương pháp hợp pháp để có được sách và cố ý tham gia vào mạng lưới torrent bất hợp pháp... là bằng chứng của việc vi phạm bản quyền."


Vụ kiện chống lại Meta còn lâu mới có kết luận. Hiện tại, nó chỉ liên quan đến các mô hình Llama đầu tiên của Meta — không phải các phiên bản gần đây. Và tòa án có thể quyết định có lợi cho Meta nếu bị thuyết phục bởi lập luận về sử dụng hợp lý của công ty. (Năm 2023, một tòa án đã bác bỏ một số khiếu nại bản quyền liên quan đến AI chống lại Meta, nhận thấy rằng nguyên đơn không chứng minh được việc vi phạm đã xảy ra.)


Nhưng những cáo buộc này không phản ánh tốt về Meta, như thẩm phán chủ tọa vụ án, Thẩm phán Vince Chhabria, đã lưu ý trong một lệnh hôm thứ Tư bác bỏ yêu cầu của Meta về việc che đi phần lớn nội dung hồ sơ.


"Rõ ràng rằng yêu cầu niêm phong của Meta không nhằm bảo vệ chống lại việc tiết lộ thông tin kinh doanh nhạy cảm mà đối thủ cạnh tranh có thể sử dụng để giành lợi thế," Chhabria viết. "Thay vào đó, nó được thiết kế để tránh dư luận tiêu cực."

Kyle Wiggers
TechCrunch
Source by: TechCrunch

Thẻ / Từ khoá