Entrenando un modelo de lenguaje del español del estado del arte

· 21 mar 2022

En esta charla hablaremos sobre RigoBERTa, el modelo de lenguaje del español que hemos construido en el IIC, y con el que hemos logrado superar el estado del arte en un benchmark de tareas diversas de PLN. Comentaremos algunos de los detalles de tratamiento de corpus y de entrenamiento del modelo que fueron necesarios para conseguir este hito, y presentaremos una comparativa contra los modelos del lenguaje español más exitosos hasta la fecha.

Alejandro Vaca Serrano

Alejandro Vaca es Data Scientist en el Instituto de Ingeniería del Conocimiento y desarrollador principal de RigoBERTa. Fue ganador del reto Minsait Land Classification en el Hackaton Cajamar UniversityHack 2020. Adicionalmente, obtuvo el primer premio en los retos de Computer Vision y Temporal Series del Hackaton de SpainAI 2021, quedando finalista en el reto de NLP, por lo que obtuvo el premio especial a Mejor Data Scientist 2021 otorgado por SpainAI.

Helena Montoro Zamorano

Helena Montoro Zamorano es lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC). Se graduó en Traducción e interpretación por la UAM y cursó el Máster en Investigación de lengua español en la misma universidad. Posteriormente, ha dirigido su carrera profesional hacia el campo de la lingüística computacional, en el que realiza tareas de todo tipo relacionadas con PLN.

Nuria Aldama García

Nuria Aldama es lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC). Cuenta con titulaciones de Graduada en Estudios Ingleses (UAM), Máster de Investigación en Lingüística General (UPV-EHU) y Doctora en Lingüística Computacional (UAM). Se ha especializado en análisis sintáctico de dependencias y trabaja en gran variedad de tareas industriales de NLP.

Álvaro Barbero Jiménez

Álvaro Barbero es el Chief Data Scientist en el Instituto de Ingeniería del Conocimiento (IIC). Cuenta con titulaciones de Ingeniero Superior, Máster y Doctor en Ingeniería Informática por la UAM, con especialidad en Aprendizaje Automático. Ha sido dos veces finalista en la competición Texata Big Data Analytics World Championships, y también finalista en el hackathon de NLP de Spain AI en 2020.