Apple encendió días atrás una polémica en el mundo de la inteligencia artificial (IA) con la publicación de un estudio que apunta directamente contra uno de los pilares discursivos de esta tecnología: la supuesta capacidad de los modelos como ChatGPT para “razonar”.
El paper, titulado The Illusion of Thinking, sostiene que, pese a las apariencias, los sistemas de IA generativa no piensan ni razonan como los humanos, y que incluso ese “razonamiento” que aparentan desplegar puede ser contraproducente.
La investigación, firmada por científicos de Apple Machine Learning Research, llega en un momento en el que la compañía de Cupertino aparece rezagada frente a competidores como OpenAI, Google o Anthropic, líderes en el desarrollo de modelos avanzados de lenguaje.
Por eso, muchos observadores no tardaron en ver el estudio como un intento de golpear narrativas ajenas más que como un aporte puramente académico.
Aun así, el contenido del trabajo no pasa desapercibido. Apple propone una nueva categoría de modelos llamada Large Reasoning Models (LRMs), diseñados para generar razonamientos intermedios antes de entregar una respuesta. El objetivo: evaluar si la inclusión explícita de procesos lógicos mejora la performance de la IA en distintos tipos de tareas.
Por qué Apple asegura que los modelos como ChatGPT no piensan
Para evitar sesgos derivados de datos aprendidos durante el entrenamiento, los investigadores sometieron a estos modelos a una serie de acertijos sintéticos como el clásico Torre de Hanói, el salto de damas (Checker Jumping), cruces de río y problemas de manipulación de bloques (Blocks World). Se trató de escenarios creados especialmente para exigir pensamiento lógico y planificación paso a paso.
Los resultados fueron sorpresivos: aunque los LRMs mostraron una ventaja frente a los modelos tradicionales en desafíos de complejidad media, colapsaron por completo cuando se aumentó la dificultad.
Más aún: este derrumbe no se debía a una falta de recursos computacionales, sino a un fenómeno más desconcertante; “Su esfuerzo de razonamiento aumenta con la complejidad del problema hasta cierto punto, luego disminuye a pesar de tener un presupuesto adecuado”.
Lo llamativo es que, en pruebas sencillas, los modelos con razonamiento rinden incluso peor que los modelos estándar. Es decir, cuando las tareas no exigen lógica avanzada, pensar demasiado puede volverse un estorbo.
«Al investigar el primer movimiento fallido de los modelos, se revelaron comportamientos sorprendentes. Por ejemplo, podían realizar hasta 100 movimientos correctos en la Torre de Hanói, pero no lograron realizar más de 5 movimientos correctos en el rompecabezas del Cruce del Río», añaden los autores.
En conjunto, el estudio parece poner en jaque el relato cada vez más instalado de que estamos a las puertas de una inteligencia artificial de nivel humano o incluso de una AGI (Artificial General Intelligence, o Inteligencia Artificial General).
Apple sugiere que esta idea se apoya en una ilusión: la de confundir la capacidad de los modelos para verbalizar pasos lógicos con una comprensión genuina de los problemas.
En ese sentido, la conclusión del trabajo es categórica: lo que aparenta ser razonamiento, no es más que el eco de patrones aprendidos. La IA, al menos por ahora, no razona: simula. Y cuando la simulación se ve exigida fuera de los márgenes conocidos, se rompe.
Apple corre de atrás en la carrera por la IA
Esta visión contrasta con el rumbo adoptado por otros gigantes tecnológicos, que han incorporado explícitamente funciones de razonamiento a sus modelos. Tanto OpenAI con GPT-4, como Google con Gemini y Anthropic con Claude, apuntan a reforzar esas capacidades, que son vistas como un paso hacia sistemas más autónomos y confiables.
Desde el lado crítico, no faltaron voces que señalan que el estudio de Apple no descubre una gran falla, sino que simplemente describe un fenómeno ya conocido: el overthinking. Es decir, la tendencia de algunos modelos a generar razonamientos innecesariamente largos y complejos, lo que puede llevar a errores o bloqueos.
También se cuestiona que Apple, sin una IA propia a la altura de sus competidores, tenga incentivos para desacreditar avances ajenos. La empresa mantiene acuerdos con actores como OpenAI, pero no ha lanzado aún un modelo de lenguaje propio que compita en igualdad de condiciones.
Más allá de las intenciones detrás del paper, lo cierto es que Apple logró poner sobre la mesa una discusión clave: ¿qué significa realmente “pensar” para una inteligencia artificial? ¿Estamos confundiendo la forma con el fondo?
En medio de la euforia por los sistemas conversacionales, The Illusion of Thinking plantea un freno. Y aunque no cierre el debate, sí pone en duda una de las fantasías más repetidas del momento: que las máquinas, finalmente, están empezando a pensar.
SL