

Entre la multitud de habilidades que poseen los humanos, ¿cuáles son exclusivamente humanas? El lenguaje ha sido una de las principales candidatas al menos desde Aristóteles, quien escribió que la humanidad era “el animal que posee lenguaje”. Si bien grandes modelos de lenguaje como ChatGPT replican superficialmente el habla cotidiana, los investigadores quieren saber si existen aspectos específicos del lenguaje humano que simplemente no tienen paralelo en los sistemas de comunicación de otros animales o dispositivos de inteligencia artificial.
En particular, los investigadores han estado explorando hasta qué punto los modelos de lenguaje pueden razonar sobre el lenguaje mismo. Para algunos en la comunidad lingüística, los modelos de lenguaje no solo no tienen capacidad de razonamiento, sino que no pueden tenerla. Esta opinión fue resumida por Noam Chomsky, un lingüista prominente, y dos coautores en 2023, cuando escribieron en The New York Times. Según estos investigadores, “las explicaciones correctas del lenguaje son complejas y no se pueden aprender simplemente analizando grandes cantidades de datos”. Si bien los modelos de IA pueden ser hábiles en el uso del lenguaje, no son capaces de analizarlo de manera sofisticada.
Esa opinión fue cuestionada en un artículo reciente por Gašper Beguš, lingüista de la Universidad de California en Berkeley, Maksymilian Dąbkowski, quien recientemente recibió su doctorado en lingüística en Berkeley, y Ryan Rhodes, de la Universidad de Rutgers. Los investigadores sometieron varios modelos de lenguaje complejos (MLC) a una serie de pruebas lingüísticas, incluyendo, en un caso, la generalización de las reglas de un idioma inventado. Si bien la mayoría de los MLC no lograron analizar las reglas lingüísticas como lo hacen los humanos, uno de ellos demostró capacidades impresionantes que superaron con creces las expectativas. Fue capaz de analizar el lenguaje de forma muy similar a como lo haría un estudiante de posgrado en lingüística: diagramando oraciones, resolviendo múltiples significados ambiguos y utilizando características lingüísticas complejas como la recursión. Este hallazgo, según Beguš, “desafía nuestra comprensión de lo que la IA puede hacer”.
Este nuevo trabajo es oportuno y “muy importante”, dijo Tom McCoy, un lingüista computacional de la Universidad de Yale que no participó en la investigación. “A medida que la sociedad depende cada vez más de esta tecnología, es fundamental comprender dónde puede tener éxito y dónde puede fracasar”. El análisis lingüístico, añadió, es el banco de pruebas ideal para evaluar hasta qué punto estos modelos de lenguaje pueden razonar como los humanos.
Complejidad infinita
Uno de los retos de someter a los modelos de lenguaje a una prueba lingüística rigurosa es asegurarse de que no conozcan ya las respuestas. Estos sistemas suelen entrenarse con enormes cantidades de información escrita, no solo la mayor parte de internet, en decenas, si no cientos, de idiomas, sino también materiales como libros de texto de lingüística. En teoría, los modelos podrían simplemente memorizar y reproducir la información que se les ha proporcionado durante el entrenamiento.
Para evitar esto, Beguš y sus colegas crearon una prueba lingüística en cuatro partes. Tres de las cuatro partes consistían en pedirle al modelo que analizara oraciones especialmente diseñadas utilizando diagramas de árbol, que fueron introducidos por primera vez en el libro fundamental de Chomsky de 1957, Estructuras sintácticas. Estos diagramas descomponen las oraciones en frases nominales y frases verbales, y luego las subdividen en sustantivos, verbos, adjetivos, adverbios, preposiciones, conjunciones, etc.
Una parte del examen se centró en la recursión: la capacidad de insertar frases dentro de otras frases. “El cielo es azul” es una oración simple en inglés. “Jane dijo que el cielo es azul” inserta la oración original en una ligeramente más compleja. Es importante destacar que este proceso de recursión puede continuar indefinidamente: “María se preguntó si Sam sabía que Omar había oído que Jane dijo que el cielo es azul” también es una oración recursiva gramaticalmente correcta, aunque algo forzada.



