Thư viện >

Dữ liệu huấn luyện AI tạo sinh và bản quyền: Giải mã báo cáo sắp được công bố của Văn phòng Bản quyền Hoa Kỳ

Leigh Ebrom

Đã xuất bản:

Hình ảnh đen trắng của một mô hình đa phương thức

Vì sao báo cáo trước khi xuất bản đáng được bạn quan tâm

Tôi biết. "Trước khi xuất bản" nghe có vẻ nhàm chán như chờ cà phê pha xong vậy. Nhưng bản dự thảo báo cáo dài 108 trang của Văn phòng Bản quyền Hoa Kỳ, "Bản quyền và Trí tuệ Nhân tạo; Phần 3: Đào tạo AI tạo sinh", cung cấp cho các công ty đang đào tạo mô hình AI và tạo nội dung cái nhìn sâu sắc hơn về các quy định. Nếu bạn xây dựng các chiến dịch tiếp thị , đào tạo mô hình học máy , hoặc lo lắng không ngủ được vì sợ các bản tóm tắt do AI tạo ra ngày mai sẽ giống với bài đăng trên blog của bạn, thì báo cáo này nên có trên bàn làm việc của bạn.

Văn phòng Bản quyền vẫn chưa đưa ra lập trường cuối cùng, nhưng tài liệu này phác thảo những đường lối chính sách mà tất cả chúng ta sẽ phải tuân theo. Nó đặt ra ba câu hỏi không hề đơn giản:

  1. Việc sao chép các tác phẩm được bảo hộ để huấn luyện các mô hình trí tuệ nhân tạo tạo sinh có phải là hành vi vi phạm bản quyền ngay từ đầu hay không?
  2. Nếu vậy, khi nào (nếu có) thì quyền sử dụng hợp lý sẽ giải quyết được vấn đề?
  3. Chính phủ nên cân bằng lợi ích của các công ty trí tuệ nhân tạo và những người sáng tạo nội dung như thế nào?

Đằng sau những câu hỏi đó là các phòng thí nghiệm trí tuệ nhân tạo trị giá hàng tỷ đô la, hàng thế kỷ lao động sáng tạo và cả bản tóm tắt kế hoạch tiếp thị tiếp theo của bạn. Hãy cùng khám phá hướng đi của Văn phòng Bản quyền về mặt quy định.

USCO đang cố gắng cân bằng lợi ích cạnh tranh giữa các nhà phát triển AI và người tạo nội dung.

Các bên quan tâm, bao gồm các tổ chức thương mại, cá nhân và các doanh nghiệp lớn như Meta, đã gửi hơn 10.000 ý kiến đóng góp cho USCO. Văn phòng này thừa nhận tính gay gắt của cuộc tranh luận về dữ liệu huấn luyện AI và hàng loạt vụ kiện đang được đưa ra xét xử tại các tòa án Hoa Kỳ. Mọi người đều có những quan điểm mạnh mẽ về dữ liệu huấn luyện AI và quyền sở hữu trí tuệ.

USCO nhận ra rằng họ đang dấn thân vào một vũng lầy. Họ bình luận:


Một số người cảnh báo rằng việc yêu cầu các công ty AI phải cấp phép cho các tác phẩm có bản quyền sẽ kìm hãm sự phát triển của một công nghệ mang tính cách mạng, bởi vì trên thực tế không thể có được giấy phép cho khối lượng và sự đa dạng nội dung cần thiết để vận hành các hệ thống tiên tiến. Những người khác lo ngại rằng việc đào tạo không có giấy phép sẽ làm xói mòn hệ sinh thái sáng tạo, khi toàn bộ tác phẩm của các nghệ sĩ bị sử dụng trái với ý muốn của họ để tạo ra nội dung cạnh tranh với họ trên thị trường. Lợi ích công cộng đòi hỏi phải tìm ra sự cân bằng hiệu quả, cho phép đổi mới công nghệ phát triển mạnh mẽ trong khi vẫn duy trì một cộng đồng sáng tạo thịnh vượng.

Hơn nữa, trí tuệ nhân tạo và các hệ thống huấn luyện của nó đang phát triển nhanh chóng. Và học thuyết sử dụng hợp lý rất phức tạp. Bạn gần như có cảm giác rằng Văn phòng đang cầu xin chúng ta kiên nhẫn và đảm bảo với chúng ta rằng họ xem xét cả hai khía cạnh của cuộc tranh luận trong Phần 3 của hướng dẫn về AI của họ.

Tuy nhiên, ngoài việc nêu rõ những yếu tố cốt lõi về cách thức hoạt động của các hệ thống huấn luyện AI, họ cũng vạch ra hướng đi tổng thể trong tương lai.

Sao chép nội dung là hành vi vi phạm bản quyền hiển nhiên.

Động thái đầu tiên của Văn phòng Bản quyền rất thẳng thắn: khi một nhà phát triển sao chép một tiểu thuyết, bức ảnh hoặc bài hát có bản quyền để huấn luyện mô hình của mình, hành động đó đáp ứng các điều kiện của một khiếu nại vi phạm bản quyền. Prima facie , tiếng Latinh có nghĩa là "thoạt nhìn", có nghĩa là người khiếu nại đã vượt qua ngưỡng thấp là chứng minh được hai sự thật: họ sở hữu tác phẩm và bạn đã sao chép nó. Chỉ riêng điều đó thôi cũng đủ để bạn bị đưa ra tòa, ngay cả khi các biện pháp bào chữa mạnh mẽ hơn (như sử dụng hợp lý) vẫn có thể giúp bạn thắng kiện.

Nhưng lời buộc tội không phải là kết thúc câu chuyện. Hãy nghĩ đến trường hợp bị phạt vì chạy quá tốc độ: cảnh sát đo được bạn chạy quá tốc độ 15 dặm/giờ và đưa cho bạn giấy phạt. Đó là bằng chứng ban đầu , bằng chứng cho thấy bạn đã ở trên đường và vượt quá giới hạn tốc độ. Bạn vẫn có cơ hội chứng minh tại sao giấy phạt không nên được giữ nguyên: có thể máy đo tốc độ bị lỗi hoặc bạn đang cố gắng tránh tai nạn. Nếu bằng chứng ban đầu là giấy phạt, thì việc sử dụng xe hợp lý có thể là cơ hội để bạn ra tòa về luật giao thông.

LIÊN QUAN: Bản quyền và Trí tuệ nhân tạo: Vấn đề về quyền tác giả của con người 

Việc sử dụng hợp lý sẽ được đánh giá dựa trên từng trường hợp cụ thể.

Trong luật bản quyền của Hoa Kỳ, sử dụng hợp lý là một van an toàn cho phép người tạo nội dung mượn một phần tác phẩm của người khác khi việc đó phục vụ lợi ích công cộng rộng lớn hơn. Nó không phải là một giấy phép tùy ý; đó là một phân tích dựa trên ngữ cảnh, cân nhắc nhiều yếu tố trước khi quyết định xem liệu có thực sự cần xin phép hay không.

Tòa án cân bằng bốn yếu tố:

  1. Mục đích và tính chất sử dụng : Giai đoạn huấn luyện của mô hình mang tính đột phá hay chỉ đơn thuần là mục đích thương mại?
  2. Bản chất của tác phẩm: Chúng ta đang nói về những bảng tính dữ liệu thực tế hay một cuốn tiểu thuyết đoạt giải Pulitzer?
  3. Số lượng và mức độ quan trọng : Bao nhiêu phần của dữ liệu gốc đã nằm trong phạm vi tham số của mô hình — và liệu có thể trích xuất lại được không?
  4. Tác động thị trường : Liệu sản phẩm của AI có cạnh tranh hoặc làm suy giảm doanh thu của người tạo ra sản phẩm gốc hay không?

Báo cáo của USCO không tuyên bố người thắng cuộc. Thay vào đó, nó đưa ra những định hướng: các ứng dụng mang tính nghiên cứu và chuyển đổi có xu hướng được coi là sử dụng hợp pháp. Các sản phẩm bắt chước hoặc thay thế cho sản phẩm gốc thì lại chống lại điều đó. Mỗi mô hình, tập dữ liệu và kế hoạch kinh doanh sẽ được xem xét riêng, theo nghĩa bóng hoặc nghĩa đen.

"Có sẵn công khai" không đồng nghĩa với "được sử dụng miễn phí".

Việc thu thập dữ liệu từ web mở có vẻ dân chủ cho đến khi bạn nhận ra có bao nhiêu tác phẩm có bản quyền đang ẩn mình ngay trước mắt. Bộ dữ liệu Books3 bao gồm toàn bộ tiểu thuyết của các tác giả còn sống. Common Crawl đã thu thập dữ liệu từ toàn bộ các trang tin tức.

Thông điệp chính của báo cáo rất rõ ràng: vị trí địa lý không quyết định quyền sở hữu. Nếu quy trình của bạn dựa vào các URL công khai, hãy kiểm tra kỹ lưỡng như khi bạn xem xét một hợp đồng với nhà cung cấp mới. Sự thiếu hiểu biết không phải là lý do bào chữa; bạn phải thực hiện thẩm định kỹ càng khi xây dựng tập dữ liệu huấn luyện của mình.

Việc cấp phép đang dần thay đổi cách thức hoạt động.

Đây là khía cạnh lạc quan mà USCO nhấn mạnh: các ngành công nghiệp sáng tạo và các nhà phát triển AI đang bắt đầu đàm phán kinh doanh thay vì kiện tụng. Universal Music đã ký kết thỏa thuận với các nhà sản xuất nhạc AI lớn nhất. Getty Images đã ký các thỏa thuận cho phép các nhà xây dựng mô hình sử dụng thư viện ảnh khổng lồ của họ mà không gặp phải rủi ro pháp lý.

Những thỏa thuận ban đầu này rất quan trọng vì chúng chứng minh rằng thị trường có thể hình thành. Văn phòng Bản quyền nói, bằng ngôn từ lịch sự của chính phủ, “Hãy xem việc cấp phép tự nguyện có thể đưa chúng ta đi xa đến đâu trước khi chúng ta áp đặt các giải pháp toàn diện.” Nói cách khác, nếu ngành công nghiệp có thể tự tổ chức, Quốc hội sẽ không cần can thiệp thêm một thời gian nữa.

Đã có đầy đủ các công cụ chính sách được đưa ra thảo luận. Cấp phép bắt buộc là lựa chọn cuối cùng.

Nếu các thỏa thuận tự nguyện bị đình trệ, báo cáo đề xuất cấp phép tập thể mở rộng (ECL) như một biện pháp pháp lý nhẹ nhàng hơn. Theo ECL, người sáng tạo có thể lựa chọn tham gia vào một nhóm tập thể đàm phán thay mặt họ, trong khi người dùng được hưởng mức giá cố định. Điều này đã khá phổ biến ở Scandinavia đối với quyền sao chép và phát trực tuyến.

Cấp phép bắt buộc, công cụ mạnh mẽ buộc người dùng phải truy cập với một khoản phí nhất định, vẫn là lựa chọn cuối cùng. Văn phòng Bản quyền cảnh báo rằng các kế hoạch bắt buộc chỉ có ý nghĩa khi thị trường hoàn toàn thất bại. Cho đến nay, các nhà quản lý vẫn hy vọng rằng các doanh nghiệp có thể tự mình thỏa thuận các chi tiết cụ thể.

Một phiên bản Creative Commons dành cho thời đại trí tuệ nhân tạo?

Báo cáo gợi ý về một tương lai nơi các nhà sáng tạo, nền tảng và các công ty công nghệ cùng nhau thiết kế một hệ thống cấp phép đủ mạnh mẽ để hỗ trợ đào tạo quy mô lớn đồng thời đảm bảo nghệ sĩ được trả tiền. Có thể gọi đó là Creative Commons 2.0, một hệ sinh thái nơi quyền sử dụng đi kèm với tệp tin, các khoản thanh toán tiền bản quyền nhỏ được thực hiện tự động và thông tin tác giả được tích hợp vào siêu dữ liệu.

Chúng ta chưa đạt được mục tiêu, nhưng những mầm mống đã hiện hữu: các thẻ xác thực nguồn gốc của Sáng kiến Xác thực Nội dung, các đề xuất về đóng dấu bản quyền từ OpenAI và Anthropic, và các hệ thống đăng ký quyền dựa trên blockchain. Văn phòng Bản quyền thực chất đang nói, “Hãy tiếp tục thử nghiệm; chúng tôi đang theo dõi.”

Các quy tắc huấn luyện AI ảnh hưởng như thế nào đến các nhà tiếp thị, công ty quảng cáo và đội ngũ sáng tạo nội bộ?

Báo cáo của Văn phòng Bản quyền đã phân biệt rõ ràng giữa dữ liệu đầu vào của mô hình (dữ liệu huấn luyện) và dữ liệu đầu ra của mô hình (nội dung được tạo ra). Cả hai giai đoạn đều đặt ra những nghĩa vụ riêng biệt đối với các nhóm tiếp thị dựa vào hoặc tự xây dựng công cụ AI của riêng mình.

Rủi ro trong giai đoạn huấn luyện

Các bộ dữ liệu không được cấp phép hoặc được ghi chép không đầy đủ sẽ tạo ra rủi ro cao nhất ở đây. Những sai lầm thường gặp bao gồm:

  • Nội dung được sao chép từ web mà không được phép. Các URL công khai vẫn thuộc bản quyền và "sử dụng hợp lý" không phải là điều hiển nhiên.
  • Dữ liệu của bên thứ ba có nguồn gốc không chắc chắn. Dữ liệu do nhà cung cấp cung cấp có thể bao gồm cả các tác phẩm có bản quyền và không có bản quyền; bạn phải chịu trách nhiệm nếu bạn tinh chỉnh chúng.
  • Tài liệu của đối thủ cạnh tranh hoặc khách hàng. Văn bản độc quyền bị sao chép nhầm có thể vi phạm thỏa thuận bảo mật thông tin (NDA) và luật bảo vệ quyền riêng tư, cũng như bản quyền.

Các biện pháp kiểm soát thực tiễn đối với dữ liệu huấn luyện

  • Kiểm tra nguồn dữ liệu trước khi nhập. Xác minh tình trạng bản quyền, điều khoản cấp phép và bất kỳ hạn chế sử dụng nào.
  • Cần có giấy phép bằng văn bản hoặc điều khoản dịch vụ rõ ràng. Đối với các thư viện ảnh, tạp chí chuyên ngành và những người sáng tạo nội dung chuyên biệt, hãy thương lượng các điều khoản đào tạo cụ thể.
  • Tài liệu chi tiết. Duy trì mã băm, dấu thời gian và nhật ký chuỗi giám sát cho mỗi phiên bản tập dữ liệu.
  • Tối thiểu hóa dữ liệu. Chỉ giữ lại những đoạn trích cần thiết cho mục tiêu của mô hình; xóa các tệp không cần thiết.
  • Đánh giá lại định kỳ. Quét lại các bộ dữ liệu cũ khi giấy phép hết hạn hoặc luật thay đổi.

LIÊN QUAN: Công việc thầm lặng đằng sau nội dung hiệu quả

Các biện pháp bảo vệ giai đoạn đầu ra

Ngay cả dữ liệu huấn luyện được chọn lọc hoàn hảo cũng vẫn có thể tạo ra nội dung vi phạm bản quyền nếu các biện pháp kiểm soát lỏng lẻo. Giảm thiểu rủi ro bằng cách:

  • Quét tìm sự tương đồng. Chạy văn bản và hình ảnh được tạo ra thông qua các công cụ phát hiện sự trùng lặp tự động trước khi xuất bản.
  • Các bước kiểm tra và xem xét thủ công. Coi các bản thảo mẫu như nguyên liệu thô cần được biên tập viên phê duyệt.
  • Bộ lọc nội dung và các ràng buộc nhắc nhở. Chặn các yêu cầu có khả năng trích dẫn nguyên văn từ các tác phẩm có bản quyền.
  • Ghi nhật ký liên tục. Lưu trữ các lời nhắc, kết quả đầu ra và ghi chú của người đánh giá để bạn có thể tái tạo lại các sự kiện nếu có khiếu nại phát sinh.

Tại sao điều đó lại quan trọng

  • Các nhà tiếp thị bảo vệ giá trị thương hiệu và tránh bị gỡ bỏ nội dung khi các đầu vào và đầu ra của chương trình đào tạo của họ có thể truy vết và được cấp phép.
  • Các công ty biến việc tuân thủ nghiêm ngặt các quy định thành giá trị gia tăng cho khách hàng, những người mong đợi cả tốc độ và sự an toàn.
  • Đội ngũ sáng tạo và công nghệ nội bộ giúp giảm thiểu các vấn đề pháp lý phát sinh, nhờ đó có thêm thời gian dành cho chiến lược và thử nghiệm.

Áp dụng các biện pháp kiểm soát này ngay từ đầu, bạn sẽ dành nhiều năng lượng hơn cho việc tối ưu hóa sáng tạo — và ít hơn cho việc phản hồi các yêu cầu ngừng vi phạm.

Câu chuyện cảnh báo về “AcmeGPT”

Hãy tưởng tượng thế này: Công ty Acme Inc. thu thập dữ liệu từ hàng triệu bài đăng trên blog, bao gồm công thức nấu ăn, nhật ký du lịch, tư vấn pháp lý, để xây dựng AcmeGPT, một trợ lý viết bài dành cho người tiêu dùng. Những người dùng thử phiên bản beta đầu tiên rất thích nó. Sau đó, các tác giả nhận thấy nhiều đoạn văn được sao chép nguyên văn từ các tác phẩm có bản quyền của họ.

Đội ngũ pháp lý của Acme vội vã xoay sở. Bộ dữ liệu của họ bao gồm mọi thứ có thể vì "công khai là công khai", phải không? Sai rồi. Họ nhận được thông báo yêu cầu gỡ bỏ và một vụ kiện tập thể. Niềm tin của nhà đầu tư lung lay. Giá trị định giá chín con số bốc hơi.

Giờ hãy tua lại. Hãy tưởng tượng Acme đã mua bản quyền nội dung từ ba nhà xuất bản chuyên ngành, ghi chép nguồn gốc dữ liệu và lọc đầu ra để tránh trích dẫn nguyên văn. Việc ra mắt có thể tốn nhiều chi phí hơn ban đầu, nhưng sẽ có sự chuẩn bị pháp lý rõ ràng và giá trị thương hiệu của công ty được giữ vững.

Tóm lại, đó chính là quyết định mà mọi nhà tiếp thị hiện đại đều phải đối mặt.

LIÊN QUAN: Cách nhận biết kẻ bán hàng lừa đảo trong lĩnh vực công nghệ pháp lý

Các nhà tiếp thị nên làm gì vào sáng mai?

Danh sách việc cần làm ngày mai không cần bằng tiến sĩ, chỉ cần những bước thực tế:

  • Lập sơ đồ các nguồn dữ liệu của bạn. Ai sở hữu chúng? Bạn có giấy phép sử dụng không? Bạn có thể dễ dàng thay thế chúng không?
  • Hãy đánh giá sản phẩm đầu ra của bạn. Liệu văn bản, hình ảnh hoặc âm thanh có thể được truy nguồn gốc từ một người tạo ra duy nhất không? Nếu có, thì bạn đã quá gần với nguồn gốc đó rồi.
  • Hãy chủ động đàm phán các giấy phép sử dụng. Liên hệ với các nhà cung cấp nội dung lưu trữ, các tạp chí chuyên ngành, hoặc thậm chí cả những người có tầm ảnh hưởng cá nhân. Cách này rẻ hơn so với kiện tụng.
  • Tích hợp quy trình xem xét và phê duyệt vào quy trình làm việc của bạn. Biên tập viên con người nên là khâu cuối cùng trước khi xuất bản, đặc biệt là trong các ngành được quản lý chặt chẽ như luật, y tế và tài chính.
  • Hãy luôn linh hoạt. Bức tranh chính sách sẽ thay đổi. Xây dựng các quy trình có thể thích ứng mà không cần phải phá bỏ toàn bộ cấu trúc hiện có.

Phương pháp tiếp cận của LaFleur: tuân thủ là ưu tiên hàng đầu, sáng tạo là điều tất yếu.

Tại LaFleur, chúng tôi hoạt động ở giao điểm giữa sự sáng tạo táo bạo và việc tuân thủ nghiêm ngặt các quy định. Khách hàng của chúng tôi, các công ty luật, các nhà đổi mới trong lĩnh vực chăm sóc sức khỏe, các nhà lãnh đạo trong lĩnh vực dịch vụ tài chính, không có cái xa xỉ của việc “hành động nhanh và phá vỡ mọi thứ”. Họ cần hành động thông minh và xây dựng lòng tin.

Đối với chúng tôi, tuân thủ không phải là một yếu tố bổ sung. Nó được tích hợp vào mọi dự án AI. Chúng tôi kiểm tra kỹ lưỡng các nguồn dữ liệu, tiến hành đánh giá rủi ro, lưu giữ hồ sơ chi tiết về các tập dữ liệu của mình và xem xét kết quả trước khi đưa vào sử dụng để khách hàng có thể tự tin thử nghiệm mà không cần lo lắng.

Bạn đã sẵn sàng khám phá thế giới AI một cách an toàn chưa? Hãy cùng trò chuyện nhé.

Nếu bạn muốn có một lộ trình rõ ràng, thiết thực để triển khai AI tuân thủ quy định, cho dù đó là lựa chọn dữ liệu huấn luyện, thiết lập các bước xem xét hay đánh giá nhà cung cấp, hãy lên lịch tư vấn ban đầu với nhóm của chúng tôi.

Tài nguyên

Bản quyền và Trí tuệ Nhân tạo; Phần 3: Huấn luyện Trí tuệ Nhân tạo Tạo sinh (Phiên bản trước khi xuất bản). (Tháng 5 năm 2025). Văn phòng Bản quyền Hoa Kỳ. Truy cập từ https://chatgpt.com/c/6821e5d5-0e08-8001-90cf-7ce101958778?model=o3