Somos 600M de personas hispanohablantes y 265M lusófonas en el mundo. El español y el portugués son los idiomas principales en 29 países, cada uno de ellos con una gran riqueza cultural. Aunque los modelos de lenguaje muestran cada vez mayores capacidades multilingües, ¿son realmente multiculturales?

Participa en el #HackathonSomosNLP, una competición internacional online cuyo principal objetivo es crear recursos diversos y abiertos de PLN las lenguas de Iberoamérica 🚀

Este año celebramos la quinta edición, ¿tienes curiosidad por los resultados de los años anteriores? ¡Sigue leyendo!

Proyectos ganadores

Hackathon SomosNLP 2025: Adecuación Cultural

Los tres mejores corpus del reto de preferencias son:

🥇 TralaleloTralala-MemeAlign
🥈 IberoTales
🥉 HoCV-COL

Equipos finalistas:

👏 Comida Colombia + Ecuador
👏 Cresia
👏 Equipo LeIA
👏 Falsos Amigos
👏 Refranero Afro-Cubano
👏 Sabiduría Popular Castellana
👏 Think Paraguayo

Logros colectivos destacados:

📚 INCLUDE: +38.000 preguntas de exámenes de 23 países
📚 BLEND: extensión del benchmark de conocimiento cultural
📚 ~1.000 estereotipos recolectados y validados

Más información sobre los proyectos del Hackathon 2025

Hackathon SomosNLP 2024: #Somos600M

Los tres proyectos ganadores son:

🥇 NoticIA: Resumen de Noticias Clickbait
🥈 AsistenciaRefugiados: Asistencia legal para refugiados
🥉 TraductorInclusivo: Reescritura de textos utilizando lenguaje inclusivo

Y el proyecto más querido por la comunidad es:

💛 AviaciónInteligente: Navegación del Reglamento Aeronáutico Colombiano

Mención especial a los proyectos:

👏 ThinkParaguayo: Conoce la cultura guaraní
👏 LenguajeClaro: Simplificación de lenguaje administrativo
👏 BERTIN-ClimID: BERTIN-Base Climate-related text Identification

Y a los corpus:

📚 SMC: Spanish Medical Corpus
📚 RecetasDeLaAbuel@: Corpus de recetas de países hispanoamericanos
📚 LingComp_QA: Un corpus educativo de lingüística computacional en español
📚 KUNTUR: Constitución política de Perú de 1993
📚 Identificación de provincias y resúmenes del Corpus Oral y Sonoro del Español Rural

Hackathon SomosNLP 2023: LLMs en español

En esta segunda edición participaron más de 500 personas de 30 países que desarrollaron 22 proyectos y 3 papers publicados.

Más información sobre el Hackathon 2023

Hackathon SomosNLP 2022: PLN en español

En la primera edición participaron más de 500 personas de 29 países. Proyectos destacados:

🥇 BiomedIA: sistema voz-a-voz de Q&A biomédico, que dio lugar a un paper presentado en NAACL 2022 con el Premio a la Mejor Presentación de Póster
🥈 Modelo Jurídico Mexicano: modelo utilizado por la Suprema Corte de Justicia de la Nación de México
🥉 Neutralización de género: reescritura de textos de manera inclusiva
💜 Detector de Sexismo: contribución a la eliminación de comentarios sexistas

Más información sobre el Hackathon 2022

Papers publicados

Los proyectos del hackathon y los logros colectivos de la comunidad han dado lugar a los siguientes papers:

Grandury, M., Aula-Blasco, J., Falcão, J., Fourrier, C., González, M., Martínez, G. & Santamaría, G., … (2025). La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America, ACL Main.
Salazar, I., Fernández Burda, M., Bin Islam, S., Soltani Moakhar, A., Singh, S., Farestam, F., Romanou, A., … Grandury, M. … (2025). Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation, ICLR.
Grandury, M. (2024). The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
Mayor-Rocher, M., Melero, N., Merino-Gómez, E., Grandury, M., Conde, J., & Reviriego, P. (2024). Evaluating large language models with tests of Spanish as a foreign language: Pass or fail?
Plaza, I., Melero, N., del Pozo, C., Conde, J., Reviriego, P., Mayor-Rocher, M., & Grandury, M. (2024). Spanish and LLM Benchmarks: Is MMLU lost in translation?
García-Ferrero, I., & Altuna, B. (2024). NoticIA: A Clickbait Article Summarization Dataset in Spanish. Procesamiento del Lenguaje Natural, 73, 191-207.
Huerta, G. & Zuñiga Rojas, G. (2024). Identificación de textos relacionados al cambio climático y sustentabilidad utilizando modelos de lenguaje preentrenados en español. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
Morales-Garzón, A., Benel Ramirez, S., Tuco Casquino, G., A. Rocha, O., & Medina, A. (2024). Aprendiendo a cocinar de manera saludable con Large Language Models, Supervised Fine Tuning y Retrieval Augmented Generation. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
Jair Bejarano Sepulveda, E., Nicolai Potes Patiño, H., Pineda Montoya, S., Ivan Rodriguez, F., Enrique Orduy, J., Stevens Traslaviña, D., Mauricio Rosales, A. & Nicolás Madrid, S. (2024). Towards Improved RAC Accessibility: Dataset and LLMs, approach to enhancing RAC accessibility. LatinX in AI (LXAI) Research Workshop @NAACL 2024.

Charlas y talleres

Hackathon 2025

Hackathon 2024

Hackathon 2023

Fine-tuning de grandes modelos de lenguaje

Hackathon 2022

Ver todos los eventos