

Un nuevo estudio revela que los modelos de inteligencia artificial (IA) entrenados con datos sintéticos—es decir, datos generados por otras máquinas—están experimentando un colapso significativo en su desempeño. Estos modelos tienden a deteriorarse al ser alimentados repetidamente con contenido generado por ellos mismos, resultando en una pérdida de calidad y en la perpetuación de sesgos. La investigación, publicada en la revista Nature, muestra que los modelos pueden llegar a producir información incorrecta y malinterpretar la realidad debido a errores introducidos por versiones anteriores del modelo.
Ilia Shumailov, coautor del estudio y miembro de Google DeepMind, explica que esta degradación ocurre porque los modelos tienden a olvidar información valiosa y se entrenan únicamente con una fracción de los datos disponibles. El estudio presenta modelos matemáticos que demuestran cómo los sistemas de IA pueden generar respuestas cada vez más erróneas, basadas en datos previos que han sido ya alterados o distorsionados. Los modelos tienden a aprender de errores anteriores, lo que provoca una repetición de errores y una disminución en la calidad de los resultados.
La práctica de entrenar modelos con datos sintéticos se ha vuelto común, ya que las empresas tecnológicas buscan evitar problemas de derechos de autor y reducir costos. Sin embargo, expertos como Luis Herrera y Víctor Etxebarria advierten que esta metodología puede transformar a las IA en herramientas menos fiables y potencialmente dañinas. A medida que más datos generados por máquinas entran en circulación, la capacidad de las IA para realizar funciones útiles se ve comprometida.

El problema se agrava con la creciente dependencia de los datos sintéticos en la red y la dificultad de distinguir entre datos generados por humanos y por máquinas. Expertos como Lorena Jaume-Palasí y Pablo Haya Coll destacan el «colapso ecológico» que esta práctica puede ocasionar y la necesidad de regulaciones estrictas para asegurar la calidad y la veracidad de los datos. La investigación subraya la urgencia de implementar controles rigurosos para evitar la degradación continua y asegurar que las IA continúen siendo herramientas útiles y precisas.