
Una profunda investigación del periódico británico The Guardian revela una industria gris global de rápido crecimiento: miles de personas comunes de Sudáfrica, India y Estados Unidos están intercambiando sus voces, rostros, videos de su caminar y registros de llamadas privadas por tarifas de entrenamiento de IA. Dado que la demanda de datos humanos de alta calidad por parte de las empresas de IA ha superado el alcance disponible en la red pública, han surgido plataformas de recopilación pagadas como Kled AI, Silencio y Neon Mobile.
Esta fiebre global de datos de IA tiene un impulso especialmente directo en los países en desarrollo.
Jacobus Louw, un joven de 27 años de Ciudad del Cabo, Sudáfrica, completó una tarea de “navegación urbana” en Kled AI, intercambiando un video de su caminar por 14 dólares, aproximadamente 10 veces el salario mínimo local. Él admite que es consciente del costo de la privacidad, pero debido a una enfermedad del sistema nervioso que lo ha impedido trabajar durante años, ha ahorrado 500 dólares vendiendo videos cotidianos y se inscribió en un curso de formación de masajista. “Como sudafricano, recibir dólares vale más de lo que la gente imagina”, dice Louw.
Sahil Tigga, un estudiante de 22 años en Ranchi, India, vende grabaciones de ruido ambiental a través de Silencio, ganando más de 100 dólares al mes; Ramelio Hill, un aprendiz de soldadura de 18 años en Chicago, EE. UU., vendió aproximadamente 11 horas de registros de llamadas privadas a Neon Mobile por 0.50 dólares por minuto, ganando alrededor de 200 dólares. Su lógica es simple y directa: las empresas de tecnología ya tienen acceso a una gran cantidad de sus datos personales, así que, ¿por qué no obtener también una parte del pastel?
Las mejoras en IA generativa como ChatGPT y Gemini dependen de una gran cantidad de datos humanos de alta calidad, pero conjuntos de datos abiertos de uso común como C4, RefinedWeb y Dolma han comenzado a restringir su uso comercial. Los investigadores estiman que las empresas de IA se quedarán sin textos nuevos y de alta calidad para 2026. El uso de datos sintéticos generados por IA para el entrenamiento ha demostrado resultar en modelos que producen “basura” llena de errores y colapsos, lo que aumenta aún más la escasez de datos humanos reales.
Las plataformas de recopilación pagadas que han surgido han formado un nuevo ecosistema global de trabajo digital:
Kled AI: adquisición de fotos y videos cotidianos por tarea
Silencio: recaudación de audio ambiental a través de crowdsourcing, liquidando en forma de tokens criptográficos
Neon Mobile: adquisición de grabaciones de conversaciones y llamadas a 0.50 dólares por minuto
Luel AI (apoyado por Y Combinator): recopilación de diálogos multilingües a aproximadamente 0.15 dólares por minuto
ElevenLabs: permite a los usuarios clonar digitalmente su voz, con una tarifa base de 0.02 dólares por minuto
Bouke Klein Teeselink, profesor de economía en el King’s College de Londres, señala que el trabajo de entrenamiento de IA es una nueva categoría laboral que crecerá significativamente. Las empresas de IA que pagan por la recopilación también lo hacen para evitar depender completamente de la extracción web, que podría dar lugar a disputas de derechos de autor.
Los riesgos legales de estas plataformas son prácticamente desconocidos para los usuarios. Enrico Bonadio, profesor de derecho en la Universidad St George de Londres, señala que los acuerdos de licencia suelen otorgar a las plataformas “derechos globales, exclusivos, irrevocables, transferibles y libres de regalías”, permitiéndoles vender, exhibir, almacenar y crear obras derivadas, y los proveedores prácticamente no tienen una forma real de retirar su consentimiento o renegociar.
La experiencia del actor neoyorquino Adam Coy es un caso representativo. Él otorgó su imagen a un software de edición de videos de IA llamado Captions por 1,000 dólares, con un acuerdo que especificaba que no podía ser utilizado para propaganda política o contenido pornográfico, con una duración de licencia de un año. Pero poco después, un amigo suyo descubrió un video en Instagram que alcanzó millones de vistas, en el que “él” se presenta como “doctor de vagina”, promoviendo suplementos médicos no comprobados para mujeres embarazadas. “Los comentarios eran extraños, porque estaban evaluando mi apariencia, pero no era yo”, dice Coy. Desde entonces, no ha aceptado más trabajos de datos de IA.
Mark Graham, profesor de la Universidad de Oxford, concluye que este trabajo es estructuralmente “inestable, sin posibilidades de ascenso, y en realidad es un callejón sin salida”, siendo el único ganador a largo plazo “las plataformas del hemisferio norte, que obtienen todo el valor duradero”.
La industria gris del entrenamiento de IA se refiere a una serie de plataformas de recopilación pagadas que compran voces, rostros, videos y registros de llamadas a usuarios comunes a cambio de compensación, para ser utilizados en el entrenamiento de modelos de IA. Se llama “gris” porque las transacciones parecen legales, pero el uso final de los datos es opaco, los términos de licencia son extremadamente asimétricos y existen riesgos de abuso potencial, como el uso en deepfakes, navegando entre la conformidad y la explotación.
Los proveedores a menudo otorgan a las plataformas derechos de uso irrevocables sobre datos biométricos sin comprender completamente los términos. Jennifer King, investigadora de la Universidad de Stanford, señala que los consumidores enfrentan el riesgo de que sus datos sean reutilizados de maneras “que no les gustan, no comprenden o no anticiparon, y para entonces prácticamente no hay vías de reparación”. El incidente de la brecha de seguridad de Neon Mobile ha demostrado que después de una filtración de datos, la plataforma puede incluso no notificar a los usuarios afectados.
Algunas plataformas de entrenamiento de IA (como Silencio) liquidan compensaciones en forma de tokens criptográficos, utilizando pagos descentralizados para reducir las barreras de cobro transfronterizo, permitiendo a los usuarios de países en desarrollo recibir ingresos directamente en forma de stablecoins o tokens nativos. Esto convierte al mercado de datos de IA en una importante rama de la aplicación del mundo real de las criptomonedas, al tiempo que plantea múltiples consideraciones sobre valoración de tokens, liquidez y ética de datos.