Por: Andrea Navarro. 26/04/2025
La inteligencia no surge de manera espontánea, requiere un proceso de formación, de exposición a ejemplos, de aprendizaje guiado por experiencia acumulada. En el caso de la inteligencia artificial, ese aprendizaje depende en gran medida de los datos que se le proporcionan. Sin una base de información, un modelo no puede identificar patrones, generar respuestas ni tomar decisiones. Alimentar a una IA implica diseñar, obtener, procesar y refinar los datos utilizados para entrenarla.
El conjunto de entrenamientos
El conjunto de entrenamiento o dataset es un elemento central en el desarrollo de un modelo de inteligencia artificial. La calidad, el tamaño y la composición de estos datos determinan el rendimiento, la precisión y también los posibles sesgos del modelo resultante. Es a partir de este conjunto que una IA “aprende” a realizar tareas.
Aspectos como el etiquetado, la variedad, el balance, la representatividad, la cantidad, y la presencia de sesgos o errores impactan directamente en la capacidad del modelo para desempeñarse de forma adecuada. Por eso, la creación y obtención de conjuntos de entrenamiento masivos y de alta calidad se ha convertido en una pieza clave dentro de la industria tecnológica.
Creación de datasets
Las empresas suelen almacenar datos relacionados con operaciones internas, rendimiento de sistemas, comportamiento de usuarios y datos de clientes. Esta información, recolectada de manera sistemática, puede ser utilizada posteriormente para construir conjuntos de entrenamiento para modelos de inteligencia artificial.
En el ámbito de la investigación científica o técnica, los datasets se generan a partir de datos antiguos y nuevos, acumulados progresivamente a lo largo de la experiencia. Los equipos recolectan, categorizan y almacenan información relevante de forma estructurada, haciendo que el conjunto de entrenamiento crezca y se refine con el tiempo.
En otros casos, los conjuntos de entrenamiento se generan de forma automática a partir del uso cotidiano de un sistema, software o servicio. Un ejemplo claro de esto son los algoritmos de recomendación de plataformas como Netflix, Spotify o YouTube, que recopilan datos sobre el consumo de contenido, palabras clave, categorías, historial de reproducción y feedback del usuario (como «me gusta», tiempo de visualización, o saltos de contenido). A partir de estos patrones, los sistemas aprenden a predecir gustos y preferencias de usuarios con perfiles similares.
Del mismo modo, empresas como Google y Amazon recolectan métricas de navegación, búsquedas, clics, interacciones, historial de compras, tiempo de permanencia en páginas, y otras señales que permiten entrenar modelos para personalizar resultados, optimizar anuncios, mejorar experiencias de compra o detectar fraudes.
Sin embargo, cuando se quiere que una IA aprenda a realizar una tarea específica que no responde a la operación cotidiana es necesario crear con un conjunto de entrenamiento diseñado especialmente para ese propósito. Esto implica no solo reunir una gran cantidad de datos relevantes, sino también asegurarse de que estén correctamente clasificados, etiquetados, organizados y normalizados. En el caso del aprendizaje supervisado, por ejemplo, cada dato debe incluir la «respuesta correcta» asociada. Si se desea entrenar un modelo para distinguir entre gatos y perros en imágenes, no basta con recolectar miles de fotos de animales en distintos contextos: también es indispensable que cada imagen esté claramente etiquetada como “gato”, “perro” o “ninguno”, y que haya una diversidad suficiente de razas, ángulos, calidades y escenarios para que el modelo generalice bien. Esta necesidad de precisión y volumen convierte la construcción de datasets específicos en una tarea altamente laboriosa. En algunos casos estas tareas de clasificación, corrección o generación de datos han sido obtenidas a través de trabajo humano remunerado, este es el caso en plataformas como Amazon Mechanical Turk[1] o Scale AI[2] donde se les paga a usuarios por completar tareas de clasificación, anotación y etiquetado . En los casos de datasets abiertas, aquellas son de acceso público, se ha utilizado crowdfunding para obtener la financiación requerida para cubrir estos costos. Proyectos como Mozilla Common Voice[3] han utilizado crowdsourcing logrando crear un dataset abierto a partir de la colaboración voluntaria de usuarios. Existen, sin embargo, otras metodologías menos directas que permiten obtener estos datos de los usuarios.
reCAPTCHA – El trabajo como parte de un servicio
Uno de los primeros casos populares de uso de habilidades humanas a gran escala para asistir a algoritmos de inteligencia artificial fue reCAPTCHA, desarrollado originalmente por el equipo del investigador Luis von Ahn y adquirido por Google en 2009. Esta tecnología reemplazó al CAPTCHA tradicional —que pedía a los usuarios ingresar letras o números distorsionados para verificar que no eran bots— por un sistema en el que los usuarios debían transcribir palabras difíciles de leer, extraídas de libros y periódicos digitalizados. Así, además de verificar que se trataba de un humano, el usuario ayudaba a entrenar algoritmos de reconocimiento óptico de caracteres (OCR).
Gracias a esta estrategia, Google logró en solo dos años digitalizar la totalidad del archivo de Google Books (la cifra exacta no es pública) y más de 13 millones de artículos del New York Times[4]. Parte de ese contenido se encuentra disponible en la plataforma Google Books, en versiones gratuitas o pagas, dependiendo de las restricciones de derechos de autor.
En 2015, Google enfrentó una demanda que argumentaba que los usuarios estaban realizando trabajo no remunerado al completar reCAPTCHAs[5]. Aunque el caso fue desestimado, abrió un debate sobre el uso de tecnologías que aprovechan el trabajo humano de manera gratuita para generar valor económico.
En 2012, reCAPTCHA evolucionó nuevamente: en lugar de texto, comenzó a mostrar imágenes y números provenientes de Google Street View, pidiendo a los usuarios identificar números de calles o fachadas, lo que ayudaba a mejorar los datos de Google Maps. Más adelante, introdujo los clásicos desafíos en cuadrícula, donde los usuarios deben identificar objetos como semáforos, bicicletas o autos, contribuyendo así a entrenar sistemas de reconocimiento de imágenes.
Desafíos virales – Trabajo disfrazado de entretenimiento
En el ámbito de las redes sociales, es posible generar conjuntos de entrenamiento mediante la colaboración de los usuarios, a través de desafíos, consignas o propuestas virales que promueven la creación masiva y rápida de contenido específico. Al estar acompañados de etiquetas o hashtags, estos contenidos pueden ser fácilmente filtrados y recolectados para su posterior procesamiento.
Uno de los ejemplos más comentados fue el “10-Year Challenge”[6], que se volvió viral en Facebook en 2019. El desafío invitaba a los usuarios a publicar una foto actual junto a una de hace exactamente diez años. Aunque Facebook ya contaba con acceso a las imágenes subidas por sus usuarios, este reto ofrecía una forma directa y estructurada de obtener pares de imágenes con diez años de diferencia de una misma persona, sin necesidad de búsquedas ni procesamiento adicional. Esta viralización masiva generó más de cinco millones de ejemplos potenciales en pocas semanas, lo que llevó a especulaciones sobre si la iniciativa pudo haber sido utilizada para entrenar modelos de reconocimiento facial capaces de predecir el envejecimiento o rejuvenecimiento facial.
Otro caso llamativo fue el Mannequin Challenge, que se popularizó en 2016. En este desafío, los participantes grababan videos en los que permanecían completamente inmóviles mientras la cámara se desplazaba alrededor de ellos, generando escenas con múltiples perspectivas estáticas. Más adelante, los videos etiquetados con el hashtag #MannequinChallenge fueron recopilados para construir un dataset público con el mismo nombre, utilizado para entrenar modelos de aprendizaje automático enfocados en la estimación de profundidad a partir de video[7].
A pesar de estos ejemplos, la falta de transparencia en la gestión de los datos y el control que ejercen los algoritmos de recomendación sobre qué contenidos se viralizan hacen difícil distinguir cuándo un desafío es una expresión orgánica de la comunidad o cuándo responde a una estrategia encubierta para recolectar datos con fines de entrenamiento.
Co-Pilot – Autoría y Licencias
GitHub Copilot fue lanzado para uso general en 2022. Es una herramienta de autocompletado de código desarrollada por GitHub en colaboración con OpenAI. Está basada en Codex, una versión del modelo GPT especialmente entrenada para generar código fuente. Los datos utilizados para su entrenamiento incluyen la totalidad de los repositorios públicos de GitHub, así como documentación técnica, comentarios y fragmentos de código obtenidos de diversas fuentes públicas en internet[8]. Copilot cuenta con una versión paga, y una gratuita disponible para estudiantes y mantenedores de proyectos open source.
GitHub, adquirido por Microsoft en 2018, es una de las plataformas más importantes para el almacenamiento, colaboración y administración de proyectos de software que utilizan el sistema de control de versiones Git. Antes de su adquisición por parte de Microsoft, estaba estrechamente asociado al movimiento del software libre y de código abierto.
El lanzamiento de Copilot generó un fuerte debate dentro de la comunidad de software libre. Una de las principales críticas fue que el modelo puede generar fragmentos de código muy similares —o incluso idénticos— a los utilizados durante su entrenamiento, sin incluir las atribuciones correspondientes. Esto podría constituir una violación de las licencias open source, especialmente de aquellas como la GPL (General Public License), que prohibe que cualquier software derivado se le aplique una licencia más restricitva . Además, se considera una contradicción con los principios de colaboración y transparencia que rigen el software libre.
La Free Software Foundation (FSF) expresó públicamente sus inquietudes éticas y legales en torno a Copilot, señalando que su uso podría agravar desigualdades estructurales en la industria tecnológica. La FSF ha planteado una serie de preocupaciones clave, entre ellas la posibilidad de que Copilot genere código que infrinja licencias como la GPL, la dificultad para que los usuarios verifiquen si el código producido respeta los términos de las licencias originales, y la legalidad del uso de software de código abierto para entrenar modelos comerciales bajo el principio de uso justo o fair use[9].
A esto se suma otra preocupación: las entradas que los usuarios proporcionan a Copilot (prompts, código, instrucciones) pueden ser utilizadas por el sistema para continuar su entrenamiento. Esto ha derivado en filtraciones involuntarias de datos sensibles, como claves privadas, contraseñas y credenciales embebidas en el código, lo que plantea serios riesgos de seguridad[10][11].
La complejidad legal se acentúa por la diversidad de licencias de software libre. Mientras que algunas permiten la reutilización libre del código, otras exigen atribución o imponen condiciones específicas. Algunas licencias libres sólo permiten la reutilización de código dentro de proyectos que adopten la misma licencia, lo que significa que incorporar sin saberlo una línea de código generada por Copilot basada en un repositorio con licencia GPL puede convertir todo un proyecto en código abierto. Dado que Copilot no proporciona información sobre la fuente, autor o licencia de sus sugerencias, es imposible determinar si el código generado es original, derivado o incluso si está protegido por copyright o sujeto a restricciones.
Se han presentado demandas legales contra GitHub y Copilot, tanto por violaciones de derechos de autor como por el incumplimiento de licencias open source. Mientras algunas de estas demandas fueron desestimadas, los casos centrados en licencias siguen activos. Para muchos críticos, este escenario representa una nueva forma de piratería automatizada, con implicancias legales aún no resueltas.
Generadores de imágenes y copyright
Los generadores de imágenes han experimentado un notable avance técnico en los últimos años, permitiendo crear imágenes que simulan estilos artísticos, medios y contenidos diversos a partir de simples descripciones en lenguaje natural. Sin embargo, el origen de los datasets utilizados para entrenar estos modelos ha generado controversias y demandas legales, especialmente por parte de artistas y creadores cuyos trabajos fueron incluidos sin autorización.
Entre estos modelos, Stable Diffusion ha mostrado un nivel de transparencia relativamente alto en comparación con otras herramientas similares. Su principal fuente de datos fue LAION-5B, un dataset de pares imagen-texto compuesto por más de 5.000 millones de ejemplos recolectados de contenido público en internet. Este conjunto incluye imágenes y descripciones obtenidas de redes sociales, sitios especializados en arte como ArtStation y DeviantArt, y otras plataformas como Pinterest, Flickr y Wikimedia Commons. Aunque el objetivo declarado de este dataset era democratizar la investigación en modelos generativos, su uso ha sido objeto de denuncias por parte de artistas que alegan que sus obras protegidas por derechos de autor fueron incluidas sin consentimiento. [12][13]
Estas demandas han puesto de relieve vacíos legales en torno al uso de obras protegidas para el entrenamiento de modelos de inteligencia artificial, especialmente en lo que respecta a la minería de datos y a la interpretación del fair use o excepciones similares en distintas jurisdicciones. En el caso de LAION, su carácter de dataset público y de uso no comercial ha permitido cierto margen legal que es mantenido aunque empresas reutilicen ese conjunto con fines comerciales.
Por otro lado, modelos como Midjourney y DALL·E (de OpenAI) han sido mucho menos transparentes sobre las fuentes específicas utilizadas para su entrenamiento. Aunque se presume que utilizan datasets similares a LAION, el estilo de muchas de las imágenes generadas ha llevado a sospechas de que emplean datos adicionales obtenidos mediante web scraping (la extracción automatizada de datos de sitios web públicos) incluidos portafolios de artistas profesionales.
Mientras el debate legal continúa, muchas empresas que desarrollan estos generadores mantienen los derechos sobre las imágenes producidas por sus modelos, aunque permiten a los usuarios utilizarlas con fines comerciales. Sin embargo, los términos de uso de estas plataformas suelen indicar que cualquier responsabilidad legal derivada de un posible uso indebido o infracción de copyright recae exclusivamente en el usuario. Esto implica un riesgo legal latente en el uso de estas herramientas dependiendo del marco legal vigente [14].
GDPR y legislación
El Reglamento General de Protección de Datos (GDPR) de la Unión Europea establece un marco riguroso para la recopilación y el procesamiento de datos personales, incluyendo su uso en el entrenamiento de modelos de inteligencia artificial (IA). La legalidad de este uso depende de varios factores, como la base jurídica que lo sustenta, la naturaleza de los datos involucrados y las salvaguardas implementadas para proteger los derechos de las personas. El GDPR es actualmente la regulación de protección de datos más estricta a nivel global, por lo que muchas empresas internacionales lo adoptan como estándar para operar en Europa sin tener que adaptar sus políticas por región.
En diciembre de 2024, el Comité Europeo de Protección de Datos (EDPB) emitió una opinión en la que afirmó que el «interés legítimo» puede servir como base legal para entrenar y desplegar modelos de IA, siempre que se realice una evaluación exhaustiva y se implementen medidas adecuadas. Entre estas se incluyen garantizar el anonimato, filtrar datos personales, evitar que estos aparezcan como salida del modelo, asegurar la transparencia, implementar pruebas rigurosas, auditorías periódicas y medidas de seguridad robustas. Esto reconoce la legalidad del entrenamiento de modelos de IA incluso si los datos utilizados pueden clasificarse como datos personales. [15]
Estas regulaciones están comenzando a impactar en la industria tecnológica, aunque su aplicación sigue limitada principalmente al ámbito de influencia del GDPR. Un ejemplo claro es el caso de Meta, que utiliza publicaciones y fotografías públicas de usuarios de Facebook e Instagram para entrenar modelos de IA. Mientras que los usuarios europeos pueden optar por no participar en esta recolección (lo que llevó a Meta a suspender el lanzamiento de su IA en Europa) esta práctica continúa en otras regiones sin restricciones similares. [16]
Asimismo, la plataforma X (anteriormente Twitter) ha estado bajo investigación por utilizar datos personales de sus usuarios para entrenar su modelo de IA, Grok, sin el consentimiento adecuado. A raíz de estas investigaciones, X se vio obligada a suspender el procesamiento de estos datos para los usuarios de la Unión Europea [17]
Conclusión
La inteligencia artificial no surge en el vacío ni su funcionamiento se limita a su código fuente: se construye sobre inmensas cantidades de datos generados por seres humanos. Parte de estos conjuntos de datos es creada conscientemente por personas que colaboran de forma remunerada o voluntaria. Sin embargo, una porción aún mayor proviene de individuos que muchas veces no son conscientes de su participación. Los usuarios no solo contribuyen al entrenamiento de modelos al utilizar servicios, navegar por internet o interactuar con plataformas; también lo hacen al producir contenido, como escribir textos, tomar fotografías, grabar videos, crear código o publicar en redes sociales. Incluso al interactuar directamente con sistemas de IA, están alimentando su aprendizaje. Esta situación es evidente y cada vez más común en modelos de lenguaje ampliamente utilizados como ChatGPT, Gemini o DeepSeek, cuyo entrenamiento se basa en grandes volúmenes de datos cuyo origen no es transparente para los propios usuarios
Esta realidad plantea dilemas éticos y legales complejos en torno a la autoría, el consentimiento, el uso justo de la información y la noción misma de trabajo. A medida que los modelos se vuelven más poderosos, también crece la necesidad de establecer marcos regulatorios claros, transparentes y equitativos que protejan los derechos de usuarios, creadores y comunidades.
*Andrea Navarro, Ingeniera en Informática, con trayectoria en docencia e investigación universitaria. co-fundadora de JuncoTIC.com, un espacio dedicado a la capacitación y divulgación de software libre y de código abierto, inteligencia artificial, redes TCP/IP, programación y seguridad informática.
Referencias[1] Amazon Mechanical Turk. (s. f.). Recuperado 11 de abril de 2025, de https://www.mturk.com/[2] Accelerate the Development of AI Applications | Scale AI. (s. f.). Recuperado 11 de abril de 2025, de https://scale.com/[3] Mozilla Common Voice. (s. f.). Recuperado 11 de abril de 2025, de https://commonvoice.mozilla.org/[4] Morreale, F., Bahmanteymouri, E., Burmester, B., Chen, A., y Thorp, M. (2024). The unwitting labourer: Extracting humanness in AI training. AI & SOCIETY, 39(5), 2389-2399. https://doi.org/10.1007/s00146-023-01692-3[5] Avanesi, V., y Teurlings, J. (2022). «I’m Not a Robot,» or am I?: Micro-Labor and the Immanent Subsumption of the Social in the Human Computation of ReCAPTCHAs. International Journal of Communication, 16, 1441-1459.[6] Martin, N. (s. f.). Was The Facebook «10 Year Challenge» A Way To Mine Data For Facial Recognition AI? Forbes. Recuperado 7 de abril de 2025, de https://www.forbes.com/sites/nicolemartin1/2019/01/17/was-the-facebook-10-year-challenge-a-way-to-mine-data-for-facial-recognition-ai/[7] Social media virals as training data for AI algorithms. (s. f.). Recuperado 7 de abril de 2025, de https://www.linkedin.com/pulse/social-media-virals-training-data-ai-algorithms-oguzhan-gencoglu[8] Verdi, S. (2023, mayo 17). Inside GitHub: Working with the LLMs behind GitHub Copilot. The GitHub Blog. https://github.blog/ai-and-ml/github-copilot/inside-github-working-with-the-llms-behind-github-copilot/[9] GitHub Copilot is ‘unacceptable and unjust,’ says Free Software Foundation. (s. f.). InfoWorld. Recuperado 7 de abril de 2025, de https://www.infoworld.com/article/2268189/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html[10] GitHub Copilot Security and Privacy Concerns: Understanding the Risks and Best Practices. (2025, marzo 27). GitGuardian Blog – Take Control of Your Secrets Security. https://blog.gitguardian.com/github-copilot-security-and-privacy/[11] Cai, Y. (2023, marzo 11). Legal and Ethical Concerns behind Github Copilot. SI 410: Ethics and Information Technology. https://medium.com/si-410-ethics-and-information-technology/legal-and-ethical-concerns-behind-github-copilot-3359d25c0001[12] Robert Kneschke vs. LAION e.V.: Legal Battle over AI and Copyright. (s. f.). Recuperado 10 de abril de 2025, de https://www.fairlicensing.com/en/blog/robert-kneschke-vs.-laion-e.vlegal-battle-over-ai-and-copyright[13] Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., Schramowski, P., Kundurthy, S., Crowson, K., Schmidt, L., Kaczmarczyk, R., y Jitsev, J. (2022). LAION-5B: An open large-scale dataset for training next generation image-text models. https://arxiv.org/abs/2210.08402[14] Part 10: Copyright and AI: Responsibility of providers and users. (s. f.). Recuperado 11 de abril de 2025, de https://www.vischer.com/en/knowledge/blog/part-10-copyright-and-ai-responsibility-of-providers-and-users/?utm_source=chatgpt.com&cHash=f1c2f719b3c2939909a237f8b0eb7a67[15] EU Privacy Regulators Confirm That Legitimate Interest Is a Valid Legal Basis for AI Model Training and Deployment. (s. f.). Wilson Sonsini Goodrich & Rosati Professional Corporation Home Page – Palo Alto, Silicon Valley, San Francisco, New York, Seattle, San Diego, Washington, D.C., Shanghai, Hong Kong, Brussels – EU Privacy Regulators Confirm That Legitimate Interest Is a Valid Legal Basis for AI Model Training and Deployment. Recuperado 10 de abril de 2025, de https://www.wsgr.com/en/insights/eu-privacy-regulators-confirm-that-legitimate-interest-is-a-valid-legal-basis-for-ai-model-training-and-deployment.html[16] Taylor, J. (2024, septiembre 11). Meta’s AI is scraping users’ photos and posts. Europeans can opt out, but Australians cannot. The Guardian. https://www.theguardian.com/technology/article/2024/sep/11/meta-ai-post-scraping-security-opt-out-privacy-laws[17] Murphy, H., y Hammond, G. (2024, julio 26). Musk’s X faces questions from watchdog over AI data grab. Financial Times. https://www.ft.com/content/1e8f5778-a592-42fd-80f6-c5daa8851a21
LEER EL ARTÍCULO ORIGINAL PULSANDO AQUÍ
Fotografía: Seguritecnia.