Ir al contenido principal

[Traducción] Las empresas deben dejar de usar nuestros datos personales...

-Artículo Original [ENG]-

 

Las empresas deben dejar de usar nuestros datos personales 
para entrenar la inteligencia artificial
 
A menudo siento que soy el producto, incluso cuando soy el cliente.

---

Reddit, Slack, Google, Facebook, Instagram: estas empresas utilizan nuestros datos, directa o indirectamente, para entrenar la próxima generación de modelos de lenguaje de IA. Sin embargo, no recuerdo que nadie nos haya pedido permiso, y al hacerlo, estas empresas han demostrado el dicho de que los datos de los clientes son su producto principal.

Durante gran parte de la generación de internet, las empresas han ofrecido productos de forma gratuita o a bajo costo para atraer a los clientes a sus ecosistemas. Productos como Gmail, YouTube, Facebook, Reddit y otros parecen ser gratuitos, pero recopilan datos de los usuarios que pueden utilizarse para mostrar anuncios o incluso venderse en paquetes agregados.

Si bien estos modelos de negocio eran aceptables en algún momento, el rápido avance de la IA ha planteado un problema mucho más grande y urgente que tiene implicaciones significativas para el futuro de nuestra privacidad.
 

Entendiendo la IA y los LLM (modelos de lenguaje grandes)

La generación actual de AIs se basa en los LLM (modelos de lenguaje grandes), que reconocen, comprenden y generan lenguaje humano. Construidos mediante aprendizaje automático, se entrenan en enormes conjuntos de datos y pueden generar texto similar al humano, reconocer imágenes, responder preguntas o procesar audio y video en tiempo real.

Los LLMs constan de tres partes clave: parámetros, pesos y tokens. 
Los parámetros forman las variables que el modelo aprende durante el proceso de entrenamiento. Los pesos determinan la fuerza de las conexiones entre las variables. Los tokens constituyen la entrada y salida básica, es decir, el texto en lenguaje natural, el audio y el video que alimentamos al LLM y recibimos como respuesta.

Imaginemos a un chef: un cliente pide un plato en particular (el token de entrada), y el chef luego coloca una serie de ingredientes en una sartén para crear el plato. El plato final es el token de salida, pero la mezcla específica de ingredientes utilizada para hacerlo son los parámetros, y la receta específica representa el peso. Cada chef puede crear ese plato (suponiendo que sea muy básico), pero lo hará en diferentes grados según su conocimiento, entrenamiento y experiencia.

Ahora, consideremos esto desde la perspectiva de alguien que le pide a Gemini o ChatGPT-4o una receta. Un LLM solo puede aprender esto en función de su conjunto de datos. Cuantas más recetas haya asimilado (equivalente a cuántas veces un chef ha preparado el plato), más podrá predecir cómo hacer un plato sabroso. El resultado es que los mejores LLMs tendrán las mejores recomendaciones, especialmente cuando les das varios ingredientes y les pides una receta
.



Tenemos un problema inminente con la inteligencia artificial

El mayor problema con lo anterior es la enorme cantidad de datos necesaria para entrenar los modelos de lenguaje de gran escala (LLMs). Aquí hay algunos ejemplos: OpenAI utilizó 1 millón de horas de datos de videos de YouTube para entrenar GPT-4 (que no es su modelo más reciente; ese sería GPT-4o). Google DeepMind utilizó aproximadamente 10 billones de palabras extraídas de la web para entrenar su modelo Gemini. Meta ha utilizado las imágenes, videos y textos que subes a sus plataformas para entrenar sus modelos generativos de IA.

Sin embargo, no termina ahí: Google pagó $60 millones a Reddit para extraer todos los datos de Reddit y utilizarlos en su IA. Esto rápidamente convirtió a Reddit en una de las principales fuentes para la función de Resúmenes de IA. Sin embargo, en detrimento de Google, la IA perdió rotundamente en la batalla entre la IA y los usuarios humanos de internet. Solo pregúntale a cualquiera que haya buscado "pizza con pegamento" o "cómo comer piedras" en Google.

Ese dinero fue a parar a Reddit y probablemente se debió a que muchos de los términos de búsqueda más populares están seguidos frecuentemente por la palabra "Reddit", ya que los usuarios buscan respuestas humanas. Sin embargo, ninguno de los millones de usuarios en Reddit verá parte de ese dinero, lo cual es especialmente extraño dado que son esos usuarios quienes han trabajado gratuitamente para construir una plataforma que Reddit puede monetizar y aprovechar.

Reddit es solo un ejemplo de compañías que explotan los datos de sus usuarios. Meta tiene las plataformas más grandes del mundo: Facebook, Instagram y WhatsApp.

Elon Musk está entrenando a GrokAI de X AI en Twitter, una de las fuentes de información en tiempo real más grandes. Ninguna de estas compañías está pagando a los usuarios por esto, y muchas también instan a los usuarios a suscribirse, lo que significa que los usuarios están pagando para proporcionar sus datos a estas compañías, aunque ninguna de estas suscripciones permite optar por no usar tus datos.

Podrías argumentar que todas estas plataformas son gratuitas y que tus datos están en juego. Estoy de acuerdo hasta cierto punto cuando no estás pagando por la plataforma, pero ¿qué pasa cuando estás pagando y sigues siendo el producto?
 
Aquí es donde debemos trazar una línea. 
 
 
¿Cuándo es suficiente? 
 
Esta pregunta nos lleva a otra: ¿cuándo debemos decir "basta"? Ya hemos visto cómo Google Gemini creó un compañero de IA; aunque se creó bajo la premisa de reducir la fricción y la comunicación entre diferentes equipos, es fácil imaginar que evolucionará para reemplazar empleos a tiempo completo. Los Resúmenes de IA de Google también están destruyendo el papel de los periodistas y verificadores de hechos, aunque, como sugiere una demanda de muchos editores, esto comenzó hace mucho tiempo con otras prácticas comerciales de Google.

El uso de nuestros datos por parte de las empresas en beneficio propio sin compensar a los usuarios no es algo nuevo. Lou Montulli creó la "cookie" digital en 1994, y en menos de un año, los anuncios dirigidos a segmentos específicos de consumidores se convirtieron en la norma. Durante más de dos décadas, la privacidad digital del cliente no fue una prioridad, y sin el Reglamento General de Protección de Datos (GDPR) de la UE (una normativa de 2018), probablemente aún no tendríamos noción de privacidad. En cambio, ahora tenemos empresas que monetizan los datos de los usuarios al absorber todo lo que han publicado en la web para entrenar sus sistemas de IA.

La IA inevitablemente transformará nuestras vidas digitales, no necesariamente de una manera positiva. Aunque empresas como OpenAI han hecho acuerdos con grandes editoriales (con grandes presupuestos) como Vox Media, la mayoría de las personas no se beneficiarán. En cambio, los usuarios cotidianos seguirán siendo el producto. La solución parece sencilla: encontrar una forma de compensar a los usuarios.
 
Dado que Google, Meta y otras empresas han amenazado con dejar de ofrecer contenido en estados y países específicos para evitar pagar a los editores, hay pocas posibilidades de que las empresas paguen a los usuarios por el provecho que sacan de sus datos. 
 
Así que, si no se nos va a compensar por nuestro conocimiento, que está siendo utilizado por estas corporaciones multinacionales para generar ingresos a lo grande, entonces como dice el título de este artículo, las compañías deben dejar de usar nuestros datos para entrenar sus IAs. Porque si se sigue el camino actual, los únicos que quedarán para crear el contenido y los datos que consumimos serán las mismas corporaciones que nos están robando los nuestros.
 

 

Comentarios

Entradas más populares de este blog

Batallas Diarias [Parte IV: "Multitasking" vs "Atención Plena"]

 " Tal vez sea hora de analizarnos en profundidad para ver si tenemos un problema.      Tal vez tengamos más de uno.           Con las bebidas. Con las comidas. Con ciertas sustancias. Con nuestros apetitos y sus rituales. Con todo aquello que trunca nuestra capacidad para librar las batallas diarias que importan, y que caprichosamente ponemos en el camino.       Tal vez todos comiencen solucionándose de la misma manera: tomando nota.      No queda otra."   ---      Toda resolución de problemas comienza tomando notas.        Los datos, estadísticas y registros han resultado ser la forma más eficiente de corregir errores, dar cuenta de ganancias y pérdidas, y dar un cierre -un final, soluciones- a los posibles conflictos que vayamos hallando en el camino.      En alguna parte del camino -espoleado por la necesidad de aprovechar el tiempo al...

El Costo de Opinar

"La capacidad de destruir rápidamente tus ideas en lugar de hacerlo lentamente cuando la ocasión se presenta es una de las cosas más valiosas que existen.  Preguntate cuáles son los argumentos de la oposición. Es malo tener una opinión de la que estás orgulloso si no podés considerar sus críticas mejor que tus oponentes, lo cual es una gran disciplina mental." –Charlie Munger       El verdadero precio de una opinión no es tenerla – es hacer el esfuerzo requerido para ganársela, trabajo que la mayoría de la gente evita. El trabajo para mantener una opinión no consiste en acumular hechos e información que avalen tu perspectiva.   Para tener una auténtica opinión, debés: - Comprender en profundidad los argumentos desde distintos lugares.  - Buscar evidencia contradictoria en lugar de ofuscarla. - Poner a prueba tu pensamiento contra las objeciones más sólidas - Considerar que tal vez estás engañándote a vos mismo   Darwin ejemplificaba este enfo...

[HRZGraph] - Ofertas de Fiverr 2021

  Hay algo raro con Fiverr (bueno, Fiverr es raro para muchas personas que jamás oyeron hablar de ello).  Siendo un sitio para freelancing con un sistema que contacta a millones de personas, es curioso que varios sitios y redes consideren Spam cualquier vínculo que provenga de Fiverr, lo cual reduce sustancialmente su utilidad como plataforma a largo plazo en lo que a mi respecta.    Si bien me ha sido útil desde que abrí mi cuenta en 2017, consideraciones del inicio de año hicieron que sopesara abrir un sitio propio (razón por la cual he comenzado la serie de posts acerca de Marca Personal), hacia el cual potenciales clientes o curiosos interesados puedan ir y venir con seguridad.  Una especie de gran centro virtual hacia el cual se pueda acceder a cualquiera de los sitios en donde ofrezco mis servicios con sólo un par de clicks.  Por desgracia distintos eventos en el último mes han erradicado gran parte de los recursos y ahorros con los que contaba para d...