El cuello de botella de mil millones de dólares de la IA: la calidad de los datos, no el modelo | Opinión
La IA podría ser la próxima industria de un trillón de dólares, pero se está acercando silenciosamente a un gran cuello de botella. Mientras todos compiten por construir modelos más grandes y potentes, un problema inminente está siendo en gran parte ignorado: podríamos quedarnos sin datos de entrenamiento utilizables en tan solo unos pocos años.
- La IA se está quedando sin combustible: los conjuntos de datos de entrenamiento han estado creciendo 3.7 veces anualmente, y podríamos agotar el suministro mundial de datos públicos de calidad entre 2026 y 2032.
- El mercado de etiquetado está explotando, pasando de $3.7B (2024) a $17.1B (2030), mientras que el acceso a datos humanos del mundo real se está reduciendo tras jardines amurallados y regulaciones.
- Los datos sintéticos no son suficientes: los bucles de retroalimentación y la falta de matices del mundo real los convierten en un sustituto arriesgado frente a los insumos desordenados generados por humanos.
- El poder está cambiando hacia los poseedores de datos: con la comoditización de los modelos, el verdadero diferenciador será quién posee y controla conjuntos de datos únicos y de alta calidad.
Según EPOCH AI, el tamaño de los conjuntos de datos de entrenamiento para grandes modelos de lenguaje ha estado creciendo a una tasa de aproximadamente 3.7 veces anualmente desde 2010. A ese ritmo, podríamos agotar el suministro mundial de datos públicos de alta calidad para entrenamiento en algún momento entre 2026 y 2032.
Incluso antes de llegar a ese límite, el costo de adquirir y curar datos etiquetados ya se está disparando. El mercado de recopilación y etiquetado de datos fue valorado en $3.77 mil millones en 2024 y se proyecta que se dispare a $17.10 mil millones para 2030.
Ese tipo de crecimiento explosivo sugiere una oportunidad clara, pero también un claro cuello de botella. Los modelos de IA solo son tan buenos como los datos con los que se entrenan. Sin un flujo escalable de conjuntos de datos frescos, diversos y sin sesgos, el rendimiento de estos modelos se estancará y su utilidad comenzará a degradarse.
Así que la verdadera pregunta no es quién construye el próximo gran modelo de IA. Es quién posee los datos y de dónde provendrán.
El problema de datos de la IA es más grande de lo que parece
Durante la última década, la innovación en IA ha dependido en gran medida de conjuntos de datos de acceso público: Wikipedia, Common Crawl, Reddit, repositorios de código abierto y más. Pero ese pozo se está secando rápidamente. A medida que las empresas restringen el acceso a sus datos y los problemas de derechos de autor se acumulan, las firmas de IA se ven obligadas a replantear su enfoque. Los gobiernos también están introduciendo regulaciones para limitar el scraping de datos, y la opinión pública está cambiando en contra de la idea de entrenar modelos de miles de millones de dólares con contenido generado por usuarios sin compensación.
Los datos sintéticos son una solución propuesta, pero es un sustituto arriesgado. Los modelos entrenados con datos generados por modelos pueden llevar a bucles de retroalimentación, alucinaciones y un rendimiento degradado con el tiempo. También existe el problema de la calidad: los datos sintéticos a menudo carecen del desorden y los matices de la entrada del mundo real, que es exactamente lo que los sistemas de IA necesitan para funcionar bien en escenarios prácticos.
Eso deja a los datos generados por humanos en el mundo real como el estándar de oro, y cada vez es más difícil de conseguir. La mayoría de las grandes plataformas que recopilan datos humanos, como Meta, Google y X (anteriormente Twitter), son jardines amurallados. El acceso está restringido, monetizado o completamente prohibido. Peor aún, sus conjuntos de datos a menudo se inclinan hacia regiones, idiomas y demografías específicas, lo que lleva a modelos sesgados que fallan en casos de uso diversos del mundo real.
En resumen, la industria de la IA está a punto de chocar con una realidad que ha ignorado durante mucho tiempo: construir un LLM masivo es solo la mitad de la batalla. Alimentarlo es la otra mitad.
Por qué esto realmente importa
Hay dos partes en la cadena de valor de la IA: la creación del modelo y la adquisición de datos. Durante los últimos cinco años, casi todo el capital y la expectación se han centrado en la creación de modelos. Pero a medida que llevamos los límites del tamaño de los modelos al máximo, finalmente la atención se está desplazando hacia la otra mitad de la ecuación.
Si los modelos se están convirtiendo en productos básicos, con alternativas de código abierto, versiones de menor tamaño y diseños eficientes en hardware, entonces el verdadero diferenciador pasa a ser los datos. Los conjuntos de datos únicos y de alta calidad serán el combustible que definirá qué modelos superan a los demás.
También introducen nuevas formas de creación de valor. Los contribuyentes de datos se convierten en partes interesadas. Los desarrolladores tienen acceso a datos más frescos y dinámicos. Y las empresas pueden entrenar modelos que estén mejor alineados con sus audiencias objetivo.
El futuro de la IA pertenece a los proveedores de datos
Estamos entrando en una nueva era de la IA, una en la que quien controle los datos tendrá el verdadero poder. A medida que la competencia por entrenar modelos mejores e inteligentes se intensifica, la mayor limitación no será el cómputo. Será la obtención de datos que sean reales, útiles y legales de usar.
La pregunta ahora no es si la IA escalará, sino quién alimentará esa escala. No serán solo los científicos de datos. Serán los administradores de datos, agregadores, contribuyentes y las plataformas que los reúnan. Ahí es donde se encuentra la próxima frontera.
Así que la próxima vez que escuches sobre una nueva frontera en inteligencia artificial, no preguntes quién construyó el modelo. Pregunta quién lo entrenó y de dónde provienen los datos. Porque al final, el futuro de la IA no se trata solo de la arquitectura. Se trata de la entrada.
Max Li es el fundador y CEO de OORT, la nube de datos para IA descentralizada. El Dr. Li es profesor, ingeniero experimentado e inventor con más de 200 patentes. Su experiencia incluye trabajo en sistemas 4G LTE y 5G con Qualcomm Research y contribuciones académicas a la teoría de la información, aprendizaje automático y tecnología blockchain. Es autor del libro titulado “Reinforcement Learning for Cyber-physical Systems,” publicado por Taylor & Francis CRC Press.
Disclaimer: The content of this article solely reflects the author's opinion and does not represent the platform in any capacity. This article is not intended to serve as a reference for making investment decisions.
You may also like

