Los expertos en IA han avisado sobre que hemos llegado al límite de los datos del mundo real que pueden ser utilizados para entrenar modelos de inteligencia artificial.
Elon Musk, multimillonario detrás de Tesla y SpaceX, está de acuerdo: “Básicamente, hemos agotado la suma acumulada de conocimientos humanos… en el entrenamiento de la IA“.
Esta afirmación, realizada durante una conversación en directo en X (antes Twitter) con el presidente de Stagwell, Mark Penn, resalta una cuestión muy importante, ¿cuál será el siguiente paso?
La solución: datos sintéticos al rescate
Elon Musk asegura que este problema ya ocurrió el año pasado. Por lo que parece, Ilya Sutskever, cofundador de OpenAI, ya había mencionado en 2024 que la industria había alcanzado un “pico de datos”, señalando que la falta de datos nuevos obligará a un cambio en cómo se desarrollan los modelos de IA en el futuro.
La realidad es que los sistemas de inteligencia artificial necesitan enormes cantidades de datos para mejorar su precisión y funcionalidad. Sin embargo, las fuentes de datos reales, como libros, artículos científicos y registros históricos, están alcanzando su límite. Esto plantea un dilema para las empresas tecnológicas que buscan avanzar en esta carrera.
Ante esta escasez, los datos sintéticos han irrumpido como una solución al rescate. Estos datos no provienen de fuentes humanas, sino que son generados por otros modelos de IA. “Con los datos sintéticos se calificará a sí misma y pasará por un proceso de autoaprendizaje”, expresó Musk.
El uso de estos datos no es una idea nueva. Empresas como Microsoft, Meta y Anthropic ya los emplean en el desarrollo de sus modelos más avanzados. Por ejemplo, Microsoft los utilizó para entrenar su modelo Phi-4, Google en sus modelos Gemma o Meta que afinó su serie Llama utilizando datos generados por IA.
Además de abordar la falta de datos reales, los datos sintéticos ofrecen otras ventajas significativas, como reducir los costes. Por ejemplo, según Techcrunch, la startup Writer logró entrenar su modelo Palmyra X 004 con un coste de 700.000 dólares, una cifra mucho menor que los 4,6 millones que costaría desarrollar un modelo comparable utilizando datos reales.
Sin embargo, el uso de estos datos no está exento de problemas. Una de las principales preocupaciones es el riesgo de que los modelos de IA se vuelvan menos creativos y más sesgados. Si los datos originales utilizados para generar los datos sintéticos contienen errores o prejuicios, estos se amplifican en el proceso de autoaprendizaje.
Este fenómeno, conocido como “colapso del modelo”, ocurre cuando un sistema de IA pierde la capacidad de generar respuestas variadas e innovadoras, volviéndose rígido y predecible. Además, el entrenamiento basado exclusivamente en datos generados por máquinas puede desconectarse de la realidad, disminuyendo la funcionalidad de los modelos en situaciones del mundo real.
Aunque los datos sintéticos son una herramienta poderosa, no pueden reemplazar completamente a los datos del mundo real. En el futuro, las empresas tecnológicas deberán encontrar un equilibrio entre ambas fuentes para desarrollar modelos de IA más efectivos y confiables.
Si esta estrategia tiene éxito, podríamos estar ante un cambio revolucionario en cómo se desarrolla y utiliza la inteligencia artificial.
Conoce cómo trabajamos en ComputerHoy.
Etiquetas: Inteligencia artificial