Biblioteca >

Datos de entrenamiento de IA generativa y derechos de autor: descifrando el informe que publicará próximamente la Oficina de Derechos de Autor de EE. UU.

Leigh Ebrom

Publicado:

Imagen en blanco y negro de un modelo multimodal.

¿Por qué merece su atención un informe previo a la publicación?

Lo sé. «Prepublicación» suena tan emocionante como esperar a que se haga el café. Pero el borrador de 108 páginas de la Oficina de Derechos de Autor de EE. UU., Copyright and Artificial Intelligence; Part 3: Generative AI Training (Derechos de autor e inteligencia artificial; Parte 3: Formación en IA generativa), ofrece a las empresas que están formando modelos de IA y creando contenido una mirada entre bastidores a la normativa. Si diseñas campañas de marketing, entrenas modelos de aprendizaje automático o te quita el sueño que los resúmenes generados por IA de mañana imiten las entradas de tu blog, este informe debería estar en tu escritorio.

La Oficina de Derechos de Autor aún no ha concretado su postura, pero el documento esboza las líneas de la política que todos tendremos que seguir. Plantea tres preguntas no tan sencillas:

  1. ¿Copiar obras protegidas para entrenar modelos de IA generativa constituye una infracciónprima facie?
  2. Si es así, ¿cuándo (si es que alguna vez) el uso legítimo salva la situación?
  3. ¿Cómo debería el gobierno equilibrar los intereses de las empresas de IA y los creadores de contenidos?

Detrás de esas preguntas se esconden laboratorios de inteligencia artificial valorados en miles de millones de dólares, siglos de trabajo creativo y tu próximo informe de marketing. Exploremos hacia dónde se dirige la Oficina de Derechos de Autor en materia de regulación.

La USCO está tratando de equilibrar los intereses contrapuestos de los desarrolladores de IA y los creadores de contenidos.

Las partes interesadas, incluidas organizaciones comerciales, particulares y grandes empresas como Meta, enviaron más de 10 000 comentarios a la USCO. La Oficina reconoce la intensidad del debate sobre los datos de entrenamiento de la IA y la avalancha de demandas que están llegando a los tribunales estadounidenses. La gente tiene opiniones muy marcadas sobre los datos de entrenamiento de la IA y la propiedad intelectual.

La USCO es consciente de que se está adentrando en un terreno pantanoso. Comenta:


Algunos advierten que exigir a las empresas de IA que obtengan licencias para obras protegidas por derechos de autor frenaría una tecnología transformadora, ya que no es posible en la práctica obtener licencias para el volumen y la diversidad de contenidos necesarios para alimentar sistemas de vanguardia. Otros temen que la formación sin licencia corroa el ecosistema creativo, ya que toda la obra de los artistas se utilizaría en contra de su voluntad para producir contenidos que competirían con ellos en el mercado. El interés público exige encontrar un equilibrio eficaz que permita el florecimiento de la innovación tecnológica y, al mismo tiempo, mantenga una comunidad creativa próspera.

Además, la inteligencia artificial y sus sistemas de entrenamiento están evolucionando rápidamente. Y la doctrina del uso legítimo tiene muchos matices. Casi da la sensación de que la Oficina nos está pidiendo paciencia y asegurándonos que ve ambos lados del debate en la Parte 3 de su guía sobre IA.

Sin embargo, además de esbozar los aspectos esenciales del funcionamiento de los sistemas de entrenamiento de IA, también describen su orientación general de cara al futuro.

Copiar contenido es una infracción prima facie.

La primera medida de la Oficina es contundente: cuando un desarrollador utiliza una novela, fotografía o canción protegida por derechos de autor para entrenar su modelo, ese acto cumple los requisitos para una demanda por infracción.Prima facie, expresión latina que significa «a primera vista», significa que el demandante ha superado el mínimo requisito de demostrar dos hechos: que es el propietario de la obra y que usted la ha copiado. Eso por sí solo le lleva a los tribunales, aunque defensas más sólidas (como el uso legítimo) puedan seguir prevaleciendo.

Pero una acusación no es el final de la historia. Piensa en ello como una multa por exceso de velocidad: el agente te pilla circulando a 15 millas por encima del límite y te entrega la citación. Esa es la pruebaprima facie, la prueba de que estabas en la carretera y superabas el límite. Aún tienes la oportunidad de demostrar por qué no se te debe imponer la multa: tal vez el radar estaba defectuoso o intentabas evitar un accidente. Si la prueba prima faciees la multa, el uso legítimo puede ser tu oportunidad en el tribunal de tráfico.

RELACIONADO: Derechos de autor e inteligencia artificial: la cuestión de la autoría humana 

El uso legítimo se evaluará caso por caso.

En la ley de derechos de autor de EE. UU., el uso legítimo es una válvula de seguridad que permite a los creadores de contenido tomar prestados fragmentos de la obra de otra persona cuando ello redunda en un interés público más amplio. No se trata de un permiso general, sino de un análisis contextual que sopesa varios elementos antes de decidir si realmente se necesita permiso.

Los tribunales sopesan cuatro factores:

  1. Finalidad y carácter del uso: ¿La fase de formación del modelo es transformativa o puramente comercial?
  2. Naturaleza del trabajo:¿Estamos hablando de hojas de cálculo con datos reales o de una novela ganadora del premio Pulitzer?
  3. Cantidad y sustancialidad: ¿Qué parte del original acabó dentro de los parámetros del modelo? ¿Se puede extraer de nuevo?
  4. Impacto en el mercado: ¿Los resultados de la IA compiten con los ingresos del creador original o los socavan?

El informe de la USCO no declara ganadores. En su lugar, ofrece pautas: los usos orientados a la investigación y transformadores se inclinan hacia el uso legítimo. Los resultados que imitan o sustituyen al original se inclinan en contra. Cada modelo, conjunto de datos y plan de negocio tendrá su propio día en los tribunales, en sentido figurado o literal.

«Disponible públicamente» no equivale a «de uso libre».

Rastrear la web abierta parece algo democrático hasta que te das cuenta de cuántas obras protegidas por derechos de autor se ocultan a plena vista. El conjunto de datos Books3 incluye novelas completas de autores vivos. Common Crawl ha recopilado sitios web de noticias completos.

La conclusión del informe es clara: la ubicación no prevalece sobre la propiedad. Si su canalización depende de URL públicas, audítela como lo haría con un nuevo contrato de proveedor. La ignorancia no es una defensa; debe actuar con la debida diligencia al crear sus conjuntos de datos de entrenamiento.

Las licencias ya están reescribiendo las reglas de participación.

Aquí está el punto de vista optimista que destaca la USCO: las industrias creativas y los desarrolladores de IA están empezando a hablar de negocios en lugar de presentar demandas judiciales. Universal Music ha cerrado acuerdos con los mayores generadores de canciones basados en IA. Getty Images ha firmado acuerdos que permiten a los creadores de modelos acceder a su amplia biblioteca de fotos sin pisar terreno minado.

Estos primeros acuerdos son importantes porque demuestran que se puede crear un mercado. La Oficina de Derechos de Autor afirma, en una prosa gubernamental cortés: «Veamos hasta dónde nos lleva la concesión voluntaria de licencias antes de imponer soluciones generales». En otras palabras, si la industria es capaz de autoorganizarse, el Congreso mantendrá las manos en los bolsillos un poco más.

Hay un conjunto completo de herramientas políticas sobre la mesa. La licencia obligatoria es la última opción.

En caso de que los acuerdos voluntarios se estanquen, el informe propone la licencia colectiva ampliada (ECL) como una medida legal más suave. Con la ECL, los creadores pueden optar por un colectivo que negocie en su nombre, mientras que los usuarios obtienen tarifas predecibles. Esto ya es habitual en Escandinavia para los derechos de fotocopia y streaming.

Las licencias obligatorias, una poderosa herramienta que obliga a acceder a un precio fijo, siguen siendo la última opción. La Oficina de Derechos de Autor advierte que los planes obligatorios solo tienen sentido cuando los mercados fallan por completo. Hasta ahora, los reguladores siguen esperando que las empresas puedan negociar los detalles por su cuenta.

¿Un dominio público creativo para la era de la IA?

El informe apunta a un futuro en el que los creadores, las plataformas y las empresas tecnológicas diseñarán conjuntamente un sistema de licencias lo suficientemente sólido como para permitir el entrenamiento a gran escala y garantizar al mismo tiempo que los artistas reciban su remuneración. Podríamos llamarlo Creative Commons 2.0, un ecosistema en el que los permisos viajan con el archivo, los micropagos de derechos de autor fluyen automáticamente y la atribución se integra en los metadatos.

Aún no hemos llegado a ese punto, pero las semillas ya son visibles: las etiquetas de procedencia de la Iniciativa para la Autenticidad del Contenido, las propuestas de marcas de agua de OpenAI y Anthropic, y los registros de derechos basados en cadenas de bloques. La Oficina de Derechos de Autor dice, en efecto: «Sigan experimentando; les estamos observando».

Cómo afectan las normas de formación en IA a los profesionales del marketing, las agencias y los creativos internos

El informe de la Oficina de Derechos de Autor establece una clara distinción entre lo que se introduce en un modelo (datos de entrenamiento) y lo que se obtiene de él (contenido generado). Ambas etapas conllevan obligaciones específicas para los equipos de marketing que dependen de herramientas de IA o desarrollan las suyas propias.

Riesgos en la fase de formación

Los conjuntos de datos sin licencia o mal documentados son los que presentan un mayor riesgo en este sentido. Entre los errores más comunes se incluyen:

  • Contenido extraído de la web sin permiso.Las URL públicas siguen estando protegidas por derechos de autor, y el «uso legítimo» no es automático.
  • Datos de terceros de origen incierto.Los datos proporcionados por los proveedores pueden mezclar obras con licencia y sin licencia; usted asume la responsabilidad si los modifica.
  • Materiales de la competencia o de clientes.El texto protegido por derechos de autor incluido por error puede infringir los acuerdos de confidencialidad y las leyes de privacidad, además de los derechos de autor.

Controles prácticos para datos de entrenamiento

  • Auditorías de fuentes antes de la ingesta.Verificar el estado de los derechos de autor, los términos de la licencia y cualquier restricción de uso.
  • Licencias escritas o condiciones de servicio claras.Para bibliotecas de imágenes, revistas especializadas y creadores de nicho, negocia subsidios de formación explícitos.
  • Documentación granular.Mantenga registros de hash, marcas de tiempo y cadena de custodia para cada versión del conjunto de datos.
  • Minimización de datos.Conservar solo los extractos necesarios para el objetivo del modelo; eliminar los archivos no esenciales.
  • Reevaluación periódica.Vuelva a escanear los conjuntos de datos heredados cuando expiren las licencias o cambien las leyes.

RELACIONADO: El trabajo invisible detrás de un contenido eficaz

Medidas de seguridad de la etapa de salida

Incluso los datos de entrenamiento perfectamente seleccionados pueden generar material infractor si las medidas de protección son laxas. Reduzca el riesgo mediante:

  • Escaneo de similitudes.Analice el texto y las imágenes generados mediante detectores automáticos de solapamientos antes de su publicación.
  • Puntos de control de revisión humana.Trate los borradores de los modelos como material en bruto que requiere la aprobación editorial.
  • Filtros de contenido y restricciones inmediatas.Bloquear las solicitudes que puedan dar lugar a extractos literales de obras protegidas por derechos de autor.
  • Registro persistente.Almacene indicaciones, resultados y notas de los revisores para poder reconstruir los acontecimientos en caso de que surja alguna reclamación.

Por qué es importante

  • Los profesionales del marketing protegen el valor de la marca y evitan las retiradas cuando sus aportaciones y resultados de formación son trazables y cuentan con licencia.
  • Las agencias convierten el cumplimiento riguroso en un valor añadido para los clientes que esperan rapidez y seguridad.
  • Los creativos y tecnólogos internos minimizan los problemas legales, lo que libera tiempo para la estrategia y la experimentación.

Adopte estos controles desde el principio y dedicará más energía a la optimización creativa y menos a las respuestas de cese y desistimiento.

La historia con moraleja de «AcmeGPT»

Imagina esto: Acme Inc. recopila un millón de entradas de blog, que contienen recetas, diarios de viaje y asesoramiento legal, para crear AcmeGPT, un asistente de redacción dirigido al consumidor. A los primeros probadores beta les encanta. Entonces, los autores se dan cuenta de que hay párrafos copiados íntegramente de sus obras protegidas por derechos de autor.

El equipo legal de Acme se apresura. Su conjunto de datos incluía todo lo imaginable porque «lo público es público», ¿verdad? Pues no. Reciben avisos de retirada y una demanda colectiva. La confianza de los inversores se tambalea. Una valoración de nueve cifras se evapora.

Ahora rebobinemos. Imaginemos que Acme hubiera obtenido la licencia del contenido de tres editoriales especializadas, registrado la procedencia de los datos y filtrado los resultados para evitar citas textuales. El lanzamiento podría haber costado más inicialmente, pero el camino legal estaría despejado y el valor de marca de la empresa permanecería intacto.

Esa es, en miniatura, la decisión a la que se enfrenta todo profesional del marketing moderno.

RELACIONADO: Cómo detectar a un vendedor de humo en el sector de la tecnología jurídica

Lo que los profesionales del marketing deberían hacer mañana por la mañana

La lista de tareas pendientes para mañana no requiere un doctorado, solo pasos prácticos:

  • Identifique sus fuentes de datos.¿Quién es su propietario? ¿Tiene licencia? ¿Es fácil sustituirlas?
  • Evalúa tus resultados.¿El texto, las imágenes o el audio podrían atribuirse a un único creador? Si es así, estás demasiado cerca para sentirte cómodo.
  • Negocia licencias proactivas.Ponte en contacto con proveedores de contenido de archivo, revistas especializadas o incluso personas influyentes. Es más barato que un litigio.
  • Incorpore ciclos de revisión en su flujo de trabajo.Los editores humanos deben seguir siendo el último eslabón antes de la publicación, especialmente en sectores regulados como el jurídico, el sanitario y el financiero.
  • Manténgase ágil.El panorama político cambiará. Cree procesos que puedan adaptarse sin derribar toda la estructura.

El enfoque de LaFleur: cumplimiento ante todo, creatividad siempre.

En LaFleur, vivimos en la encrucijada entre la creatividad audaz y el cumplimiento riguroso. Nuestros clientes, bufetes de abogados, innovadores en el ámbito de la salud y líderes en servicios financieros, no pueden permitirse el lujo de «actuar con rapidez y romper moldes». Necesitan actuar con inteligencia y generar confianza.

Para nosotros, el cumplimiento normativo no es un complemento adicional. Está integrado en todos nuestros proyectos de IA. Verificamos las fuentes de datos, realizamos evaluaciones de riesgos, mantenemos registros detallados sobre nuestros conjuntos de datos y revisamos los resultados antes de su publicación, para que nuestros clientes puedan experimentar con confianza y sin preocupaciones.

¿Listo para navegar por la IA de forma segura? Hablemos.

Si desea obtener una hoja de ruta clara y práctica para una IA que cumpla con la normativa, ya sea para elegir datos de entrenamiento, establecer pasos de revisión o evaluar a un proveedor, programe una consulta inicial con nuestro equipo.

Recursos

Derechos de autor e inteligencia artificial; Parte 3: Formación en IA generativa (versión previa a la publicación). (Mayo de 2025). Oficina de Derechos de Autor de EE. UU. Obtenido de https://chatgpt.com/c/6821e5d5-0e08-8001-90cf-7ce101958778?model=o3