Por qué es tan relevante la demanda de The New York Times contra OpenAI y Microsoft por usar sus contenidos sin permiso

The New York Times (TNYT) –uno de los periódicos de referencia a nivel global– considera que OpenAI y Microsoft han vulnerado sus derechos de autor al utilizar sus artículos (incluidos los de pago) sin su autorización. De ahí la demanda interpuesta contra ambas empresas –propietarias de las aplicaciones de IA ChatGPT y Copilot respectivamente– presentada a finales de 2023 y en la que se reclaman “miles de millones de dólares” de compensación económica.

Del contenido de la demanda, se desprende que la información aportada por la IA mostraba extractos literales de los artículos del diario. TNYT sostiene que esta situación le está ocasionando una considerable pérdida de lectores.

El resultado de esta reclamación podría marcar un antes y un después en el mundo de las tecnológicas.

Argumento: uso legítimo

Seguramente las empresas demandadas basen su defensa en la cláusula de fair use (uso legítimo), recogida en el artículo 107 de la (Copyright Act (1976), la ley de derechos de autor estadounidense.

Dicha normativa contempla la posibilidad de usar legítimamente obras protegidas, sin necesidad de contar con el permiso del titular, siempre y cuando se realice con fines específicos como la crítica, el comentario, la actividad docente, la información o la investigación.

Además, somete a revisión cuatro factores:

  1. La finalidad y naturaleza del uso, considerando si es de índole comercial o con propósitos educativos no lucrativos.

  2. Las características de la obra protegida por derechos de autor.

  3. La cantidad e importancia de la parte utilizada en relación con el total de la obra protegida.

  4. El impacto del uso legítimo para el mercado potencial o el valor de la obra protegida.

La versión más básica de ChatGPT es gratuita para todos los usuarios y podría sostenerse que tiene un propósito educativo, por lo que el primer requisito se cumpliría.

Los requisitos segundo, tercero y cuarto tendrán que ser evaluados por las instancias judiciales estadounidenses. Deberán constatar:

  1. Qué cantidad de textos pertenecientes al New York Times y en qué proporción han sido utilizadas.

  2. Si lo que ha creado la IA puede considerarse distinto del contenido original o solo se ha limitado a reproducirlo.

También deberán valorar si, como afirma el periódico, existe una relación de causalidad entre el uso de información proveniente de TNYT y la pérdida de lectores, con el consiguiente perjuicio económico para el medio.

Datos, la clave de la IA

El entrenamiento de la IA se basa en datasets, conjuntos de datos estructurados que sirven para analizar patrones, realizar investigaciones, entrenar modelos de aprendizaje automático y respaldar decisiones basadas en datos. Los datasets son esenciales para el desarrollo de la IA y es en su calidad, más que en la cantidad, donde radica su importancia.

Un dataset de alta calidad garantiza que la información que se está utilizando para entrenar o probar un modelo de IA es precisa y fiable. Los datos incorrectos o engañosos pueden llevar a resultados erróneos, alucinaciones o a un modelo de IA que no funcione adecuadamente en situaciones reales.

No siempre es fácil contar con datasets de calidad. Se consiguen principalmente a través de dos vías: los datasets privados y las fuentes públicas, disponibles en internet para cualquier usuario. Estos datos se consiguen mediante web scrapping (el escaneado de la red). Aunque esta técnica posibilita la recopilación masiva de datos no garantiza su calidad.

En sectores como la medicina, el derecho o las ciencias se deben utilizar datasets privados para obtener información veraz. Esto requiere que las empresas privadas compartan sus investigaciones, algo complejo pues podría entrar en conflicto con sus intereses particulares.

Apuntes legales

De acuerdo al principio de territorialidad, cada país o región establece regulaciones dentro de su territorio. Lo que puede suponer que si un país regula el uso de la IA de una manera más restrictiva que otro, impedirá a sus ciudadanos utilizar una IA más avanzada.

Europa, por ejemplo, pactó en diciembre de 2023 la primera ley de inteligencia artificial del mundo, que debe entrar en vigor antes de 2026 y con la que se pretende definir las obligaciones para esta nueva tecnología para asegurar que se respeten los derechos fundamentales y los valores europeos.

Una solución conveniente podría ser aplicar la cláusula de fair use de una forma muy amplia, sin estar tan limitada a los derechos de autor, en plataformas de IA con fines educativos, en aras del beneficio colectivo.

Conclusiones

Surge así una dilema: ¿Debe relajarse el acceso a las obras protegidas por la propiedad intelectual para mejorar los datasets de los grandes modelos de lenguaje con el fin de enriquecer la experiencia humana o, por el contrario, las grandes empresas que desarrollan estos modelos deben pagar los cánones correspondientes por el uso de esa información en el entrenamiento de las inteligencias artificiales?

Una sentencia que imponga restricciones legales a los gigantes tecnológicos en el entrenamiento de sus modelos de inteligencia artificial podría acarrear consecuencias negativas para su desarrollo.

Esperaremos a ver si la decisión emitida en este polémico juicio conduce a ajustes legislativos y limitaciones internacionales en relación con la regulación de la IA.


Ignacio Goñi González, ingeniero experto en marketing, comunicación e IA como coautor de este artículo.


The Conversation

Sara Cabañas Area does not work for, consult, own shares in or receive funding from any company or organisation that would benefit from this article, and has disclosed no relevant affiliations beyond their academic appointment.

  • Categoría de la entrada:Opinión