Las empresas deben dejar de usar nuestros datos personales
para entrenar la inteligencia artificial
A menudo siento que soy el producto, incluso cuando soy el cliente.
---
Reddit, Slack, Google, Facebook, Instagram: estas empresas utilizan nuestros datos, directa o indirectamente, para entrenar la próxima generación de modelos de lenguaje de IA. Sin embargo, no recuerdo que nadie nos haya pedido permiso, y al hacerlo, estas empresas han demostrado el dicho de que los datos de los clientes son su producto principal.
Durante gran parte de la generación de internet, las empresas han ofrecido productos de forma gratuita o a bajo costo para atraer a los clientes a sus ecosistemas. Productos como Gmail, YouTube, Facebook, Reddit y otros parecen ser gratuitos, pero recopilan datos de los usuarios que pueden utilizarse para mostrar anuncios o incluso venderse en paquetes agregados.
Si bien estos modelos de negocio eran aceptables en algún momento, el rápido avance de la IA ha planteado un problema mucho más grande y urgente que tiene implicaciones significativas para el futuro de nuestra privacidad.
Durante gran parte de la generación de internet, las empresas han ofrecido productos de forma gratuita o a bajo costo para atraer a los clientes a sus ecosistemas. Productos como Gmail, YouTube, Facebook, Reddit y otros parecen ser gratuitos, pero recopilan datos de los usuarios que pueden utilizarse para mostrar anuncios o incluso venderse en paquetes agregados.
Si bien estos modelos de negocio eran aceptables en algún momento, el rápido avance de la IA ha planteado un problema mucho más grande y urgente que tiene implicaciones significativas para el futuro de nuestra privacidad.
Entendiendo la IA y los LLM (modelos de lenguaje grandes)
La generación actual de AIs se basa en los LLM (modelos de lenguaje grandes), que reconocen, comprenden y generan lenguaje humano. Construidos mediante aprendizaje automático, se entrenan en enormes conjuntos de datos y pueden generar texto similar al humano, reconocer imágenes, responder preguntas o procesar audio y video en tiempo real.
Los LLMs constan de tres partes clave: parámetros, pesos y tokens.
Los parámetros forman las variables que el modelo aprende durante el proceso de entrenamiento. Los pesos determinan la fuerza de las conexiones entre las variables. Los tokens constituyen la entrada y salida básica, es decir, el texto en lenguaje natural, el audio y el video que alimentamos al LLM y recibimos como respuesta.
Imaginemos a un chef: un cliente pide un plato en particular (el token de entrada), y el chef luego coloca una serie de ingredientes en una sartén para crear el plato. El plato final es el token de salida, pero la mezcla específica de ingredientes utilizada para hacerlo son los parámetros, y la receta específica representa el peso. Cada chef puede crear ese plato (suponiendo que sea muy básico), pero lo hará en diferentes grados según su conocimiento, entrenamiento y experiencia.
Ahora, consideremos esto desde la perspectiva de alguien que le pide a Gemini o ChatGPT-4o una receta. Un LLM solo puede aprender esto en función de su conjunto de datos. Cuantas más recetas haya asimilado (equivalente a cuántas veces un chef ha preparado el plato), más podrá predecir cómo hacer un plato sabroso. El resultado es que los mejores LLMs tendrán las mejores recomendaciones, especialmente cuando les das varios ingredientes y les pides una receta.
Imaginemos a un chef: un cliente pide un plato en particular (el token de entrada), y el chef luego coloca una serie de ingredientes en una sartén para crear el plato. El plato final es el token de salida, pero la mezcla específica de ingredientes utilizada para hacerlo son los parámetros, y la receta específica representa el peso. Cada chef puede crear ese plato (suponiendo que sea muy básico), pero lo hará en diferentes grados según su conocimiento, entrenamiento y experiencia.
Ahora, consideremos esto desde la perspectiva de alguien que le pide a Gemini o ChatGPT-4o una receta. Un LLM solo puede aprender esto en función de su conjunto de datos. Cuantas más recetas haya asimilado (equivalente a cuántas veces un chef ha preparado el plato), más podrá predecir cómo hacer un plato sabroso. El resultado es que los mejores LLMs tendrán las mejores recomendaciones, especialmente cuando les das varios ingredientes y les pides una receta.
Tenemos un problema inminente con la inteligencia artificial
El mayor problema con lo anterior es la enorme cantidad de datos necesaria para entrenar los modelos de lenguaje de gran escala (LLMs). Aquí hay algunos ejemplos: OpenAI utilizó 1 millón de horas de datos de videos de YouTube para entrenar GPT-4 (que no es su modelo más reciente; ese sería GPT-4o). Google DeepMind utilizó aproximadamente 10 billones de palabras extraídas de la web para entrenar su modelo Gemini. Meta ha utilizado las imágenes, videos y textos que subes a sus plataformas para entrenar sus modelos generativos de IA.
Sin embargo, no termina ahí: Google pagó $60 millones a Reddit para extraer todos los datos de Reddit y utilizarlos en su IA. Esto rápidamente convirtió a Reddit en una de las principales fuentes para la función de Resúmenes de IA. Sin embargo, en detrimento de Google, la IA perdió rotundamente en la batalla entre la IA y los usuarios humanos de internet. Solo pregúntale a cualquiera que haya buscado "pizza con pegamento" o "cómo comer piedras" en Google.
Ese dinero fue a parar a Reddit y probablemente se debió a que muchos de los términos de búsqueda más populares están seguidos frecuentemente por la palabra "Reddit", ya que los usuarios buscan respuestas humanas. Sin embargo, ninguno de los millones de usuarios en Reddit verá parte de ese dinero, lo cual es especialmente extraño dado que son esos usuarios quienes han trabajado gratuitamente para construir una plataforma que Reddit puede monetizar y aprovechar.
Reddit es solo un ejemplo de compañías que explotan los datos de sus usuarios. Meta tiene las plataformas más grandes del mundo: Facebook, Instagram y WhatsApp.
Elon Musk está entrenando a GrokAI de X AI en Twitter, una de las fuentes de información en tiempo real más grandes. Ninguna de estas compañías está pagando a los usuarios por esto, y muchas también instan a los usuarios a suscribirse, lo que significa que los usuarios están pagando para proporcionar sus datos a estas compañías, aunque ninguna de estas suscripciones permite optar por no usar tus datos.
Podrías argumentar que todas estas plataformas son gratuitas y que tus datos están en juego. Estoy de acuerdo hasta cierto punto cuando no estás pagando por la plataforma, pero ¿qué pasa cuando estás pagando y sigues siendo el producto?
Aquí es donde debemos trazar una línea.
¿Cuándo es suficiente?
Esta pregunta nos lleva a otra: ¿cuándo debemos decir "basta"? Ya hemos visto cómo Google Gemini creó un compañero de IA; aunque se creó bajo la premisa de reducir la fricción y la comunicación entre diferentes equipos, es fácil imaginar que evolucionará para reemplazar empleos a tiempo completo. Los Resúmenes de IA de Google también están destruyendo el papel de los periodistas y verificadores de hechos, aunque, como sugiere una demanda de muchos editores, esto comenzó hace mucho tiempo con otras prácticas comerciales de Google.
El uso de nuestros datos por parte de las empresas en beneficio propio sin compensar a los usuarios no es algo nuevo. Lou Montulli creó la "cookie" digital en 1994, y en menos de un año, los anuncios dirigidos a segmentos específicos de consumidores se convirtieron en la norma. Durante más de dos décadas, la privacidad digital del cliente no fue una prioridad, y sin el Reglamento General de Protección de Datos (GDPR) de la UE (una normativa de 2018), probablemente aún no tendríamos noción de privacidad. En cambio, ahora tenemos empresas que monetizan los datos de los usuarios al absorber todo lo que han publicado en la web para entrenar sus sistemas de IA.
La IA inevitablemente transformará nuestras vidas digitales, no necesariamente de una manera positiva. Aunque empresas como OpenAI han hecho acuerdos con grandes editoriales (con grandes presupuestos) como Vox Media, la mayoría de las personas no se beneficiarán. En cambio, los usuarios cotidianos seguirán siendo el producto. La solución parece sencilla: encontrar una forma de compensar a los usuarios.
El uso de nuestros datos por parte de las empresas en beneficio propio sin compensar a los usuarios no es algo nuevo. Lou Montulli creó la "cookie" digital en 1994, y en menos de un año, los anuncios dirigidos a segmentos específicos de consumidores se convirtieron en la norma. Durante más de dos décadas, la privacidad digital del cliente no fue una prioridad, y sin el Reglamento General de Protección de Datos (GDPR) de la UE (una normativa de 2018), probablemente aún no tendríamos noción de privacidad. En cambio, ahora tenemos empresas que monetizan los datos de los usuarios al absorber todo lo que han publicado en la web para entrenar sus sistemas de IA.
La IA inevitablemente transformará nuestras vidas digitales, no necesariamente de una manera positiva. Aunque empresas como OpenAI han hecho acuerdos con grandes editoriales (con grandes presupuestos) como Vox Media, la mayoría de las personas no se beneficiarán. En cambio, los usuarios cotidianos seguirán siendo el producto. La solución parece sencilla: encontrar una forma de compensar a los usuarios.
Dado que Google, Meta y otras empresas han amenazado con dejar de ofrecer contenido en estados y países específicos para evitar pagar a los editores, hay pocas posibilidades de que las empresas paguen a los usuarios por el provecho que sacan de sus datos.
Así que, si no se nos va a compensar por nuestro conocimiento, que está siendo utilizado por estas corporaciones multinacionales para generar ingresos a lo grande, entonces como dice el título de este artículo, las compañías deben dejar de usar nuestros datos para entrenar sus IAs. Porque si se sigue el camino actual, los únicos que quedarán para crear el contenido y los datos que consumimos serán las mismas corporaciones que nos están robando los nuestros.
Comentarios
Publicar un comentario