Nace “La Leaderboard”, la primera tabla de clasificación para modelos de lenguaje generativos abiertos en español y las lenguas oficiales.
La “Leaderboard de Variedades del Español y Lenguas Oficiales” está impulsada por la comunidad SomosNLP en colaboración con grupos de investigación de tecnologías del lenguaje.
Los grandes modelos de lenguaje, LLMs por sus siglas en inglésLarge Language Models, se han convertido en un actor principal en el ámbito de la inteligencia artificial (IA), facilitando la adopción de herramientas de IA en numerosas organizaciones. Los LLMs representan un gran avance en el ámbito del procesamiento del lenguaje natural (PLN) y la IA, y están diseñados para comprender y generar texto imitando las respuestas que daría un humano. La gran cantidad de datos utilizados en el entrenamiento hace posible la realización de otras funcionalidades y contenidos.
Ante el auge de estos grandes modelos,SomosNLP, una comunidad internacional de hispanohablantes que trabajan e investigan en el campo del PLN, detectó la necesidad de crear una tabla de clasificación para comparar modelos de lenguaje generativos en sus lenguas y medir cuantitativamente el avance en este campo. Así nace la“Leaderboard de Variedades del Español y Lenguas Oficiales”, la primeraleaderboardpara modelos generativos en español y lenguas oficiales de España y LATAM.
La primera versión de la tabla de clasificación de modelos de lenguaje generativos incluye más de 50 tareas en 4 lenguas (español, catalán, euskera y gallego) y evalúa las capacidades de extracción de información y resumen, cultura general, conocimiento en los dominios legal y clínico, razonamiento lógico y dominio del idioma.
Cabe destacar que la creación de“La Leaderboard”es fruto de una colaboración entre diversos grupos de investigación. Así, las bases de datos para evaluar cada tarea han sido donadas por grupos como laUnidad de Tecnologías del Lenguaje del Barcelona Supercomputing Center - Centro Nacional de Supercomputación(BSC-CNS), el centroHiTZde la Universidad del País Vasco, la Universidad de Santiago de Compostela (USC) a través de los centrosCiTIUS(Centro Singular de investigación en Tecnologías Inteligentes) eILG(Instituto da Lingua Galega),LenguajeNatural.AI, elInstituto de Ingeniería del Conocimiento(IIC), elGrupo de Internet de Nueva Generación(GING) de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid (UPM), elGrupo de Ingeniería Lingüística(GIL) de la Universidad Nacional Autónoma de México (UNAM) y elGrupo de investigación en Sistemas Inteligentes de Acceso a la Información(SINAI) de la Universidad de Jaén.
Todo ello liderado por SomosNLP a través del proyecto #Somos600M, lanzado por esta comunidad con el objetivo de representar en el mundo digital la diversidad de las lenguas de España, LATAM y El Caribe. Este objetivo está alineado con el del proyecto ILENIA, por lo que gran cantidad de las bases de datos han sido subvencionadas por este proyecto impulsado por el Ministerio para la Transformación Digital y de la Función Pública y coordinado por el BSC, junto con HiTZ, la USC y el centro CENID de Alicante. Las aportaciones de la UPM a “La Leaderboard” han sido posibles gracias a los proyectos FUN4DATE y SMARTY financiados por la Agencia Estatal de Investigación. Asimismo, gracias a la colaboración deLenguajeNatural.AIcon profesionales del mundo del derecho y la medicina, se han incluido tareas desarrolladas originalmente en español por expertos en dichos campos. Con el fin de considerar diferentes variedades del español se han establecido colaboraciones con grupos de investigación de España, México, Argentina y Chile.
Entre los puntos clave de “La Leaderboard”, debemos mencionar que todas las bases de datos de evaluación han sido originalmente creadas o manualmente traducidas a las correspondientes lenguas, un punto importante porque la acción de traducirbenchmarksincluye errores y sesgos del modelo, lo que indica la importancia de hace aún más relevante evaluar con datos “nativos”.
Para comenzar, hemos evaluado 4 modelos multilingües y todos los preentrenados en español y lenguas oficiales. Agradecemos mucho el patrocinio de GPUs para inferencia por parte deHugging Face, el Barcelona Supercomputing Center y la Universidad Politécnica de Madrid.
Los datos de evaluación son abiertos y los resultados reproducibles, con el fin de asegurar una máxima transparencia. Asimismo, cualquier persona puede solicitar la evaluación de sus modelos, que se realiza de manera automática. Estas dos últimas características, además de la diversidad de tareas y lenguas, diferencian a “La Leaderboard” de las tablas de clasificación existentes para modelos en español:ODESIA, cuyas tareas son privadas para priorizar la legitimidad de los resultados, yLMSYS Chatbot Arena, cuyas evaluaciones son manuales.
Así, preguntas como “¿Qué modelo de lenguaje genera texto de mayor calidad en español? ¿Y en catalán?” ya tienen su respuesta, gracias a la“Leaderboard de Variedades del Español y Lenguas Oficiales”.
Ver La Leaderboard en Hugging Face
Sobre SomosNLP
SomosNLP es una comunidad internacional de hispanohablantes que estudian, trabajan e investigan en el campo del PLN con el objetivo de democratizar y avanzar el estado del arte del PLN en español mediante la creación de recursos abiertos.
Sobre ILENIA
ILENIA es un proyecto coordinado por el Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS) que desarrolla recursos lingüísticos digitales en las lenguas cooficiales de España y financiado por el Ministerio para la Transformación Digital y de la Función Pública.
Sobre LenguajeNaturalAI
LenguajeNaturalAI es una empresa emergente cuya misión es tener un impacto social positivo con el uso de la IA generativa y el PLN, como muestra también la publicación en abierto de sus modelosLeNIA-Chat.
Sobre Hugging Face
Hugging Facees la plataforma de colaboración para la comunidad de ML. Con una maravillosa comunidad, algunas de las más utilizadas bibliotecas y herramientas de código abierto, y un equipo talentoso explorando el SOTA de la tecnología, Hugging Face está en el corazón de la revolución de la IA.
¡Gracias a todas las personas que habéis colaborado para crear La Leaderboard! Estoy segura de que esta tabla de clasificación será un valioso recurso para toda la comunidad hispanohablante y animo a más grupos de investigación a colaborar para que podamos evaluar en los modelos nuestra diversidad lingüística y cultural. María Grandury