Somos 265M de pessoas lusófonas e 600M de hispanofalantes no mundo. O português e o espanhol são as línguas principais de 29 países, cada um com uma enorme riqueza cultural. Os modelos de linguagem mostram capacidades multilíngues cada vez maiores, mas será que são realmente multiculturais?
Participe do #HackathonSomosNLP, uma competição internacional online cujo principal objetivo é criar recursos diversos e abertos de PLN para as línguas da Ibero América 🚀
Este ano celebramos a quinta edição. Tem curiosidade sobre os resultados dos anos anteriores? Continue lendo!
Projetos vencedores
Hackathon SomosNLP 2025: Adequação Cultural
Os três melhores corpora do desafio de preferências são:
- 🥇 TralaleloTralala-MemeAlign
- 🥈 IberoTales
- 🥉 HoCV-COL
Equipes finalistas:
- 👏 Comida Colombia + Ecuador
- 👏 Cresia
- 👏 Equipo LeIA
- 👏 Falsos Amigos
- 👏 Refranero Afro-Cubano
- 👏 Sabiduría Popular Castellana
- 👏 Think Paraguayo
Conquistas coletivas em destaque:
- 📚 INCLUDE: mais de 38.000 perguntas de exames de 23 países
- 📚 BLEND: extensão do benchmark de conhecimento cultural
- 📚 ~1.000 estereótipos coletados e validados
Mais informações sobre os projetos do Hackathon 2025
Hackathon SomosNLP 2024: #Somos600M
Os três projetos vencedores:
- 🥇 NoticIA: Resumo de Notícias Clickbait
- 🥈 AsistenciaRefugiados: Assistência jurídica para refugiados
- 🥉 TraductorInclusivo: Reescrita de textos com linguagem inclusiva
E o projeto preferido da comunidade:
- 💛 AviaciónInteligente: Navegação pelo Regulamento Aeronáutico Colombiano
Menção especial aos projetos:
- 👏 ThinkParaguayo: Conheça a cultura guarani
- 👏 LenguajeClaro: Simplificação da linguagem administrativa
- 👏 BERTIN-ClimID: BERTIN-Base Climate-related text Identification
E aos corpora:
- 📚 SMC: Spanish Medical Corpus
- 📚 RecetasDeLaAbuel@: Corpus de receitas de países hispano americanos
- 📚 LingComp_QA: Um corpus educativo de linguística computacional em espanhol
- 📚 KUNTUR: Constituição Política do Peru de 1993
- 📚 Identificação de províncias e resumos do Corpus Oral e Sonoro do Espanhol Rural
Hackathon SomosNLP 2023: LLMs em espanhol
Nesta segunda edição participaram mais de 500 pessoas de 30 países, que desenvolveram 22 projetos e 3 papers publicados.
Mais informações sobre o Hackathon 2023
Hackathon SomosNLP 2022: PLN em espanhol
Na primeira edição participaram mais de 500 pessoas de 29 países. Projetos em destaque:
- 🥇 BiomedIA: sistema voz a voz de Q&A biomédico, que deu origem a um paper apresentado no NAACL 2022 com o Prêmio de Melhor Apresentação de Pôster
- 🥈 Modelo Jurídico Mexicano: modelo utilizado pela Suprema Corte de Justiça da Nação do México
- 🥉 Neutralização de gênero: reescrita de textos de forma inclusiva
- 💜 Detector de sexismo: contribuição para a eliminação de comentários sexistas
Mais informações sobre o Hackathon 2022
Papers publicados
Os projetos do hackathon e as conquistas coletivas da comunidade resultaram nos seguintes papers:
- Grandury, M., Aula-Blasco, J., Falcão, J., Fourrier, C., González, M., Martínez, G. & Santamaría, G., … (2025). La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America, ACL Main.
- Salazar, I., Fernández Burda, M., Bin Islam, S., Soltani Moakhar, A., Singh, S., Farestam, F., Romanou, A., … Grandury, M. … (2025). Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation, ICLR.
- Grandury, M. (2024). The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
- Mayor-Rocher, M., Melero, N., Merino-Gómez, E., Grandury, M., Conde, J., & Reviriego, P. (2024). Evaluating large language models with tests of Spanish as a foreign language: Pass or fail?
- Plaza, I., Melero, N., del Pozo, C., Conde, J., Reviriego, P., Mayor-Rocher, M., & Grandury, M. (2024). Spanish and LLM Benchmarks: Is MMLU lost in translation?
- García-Ferrero, I., & Altuna, B. (2024). NoticIA: A Clickbait Article Summarization Dataset in Spanish. Procesamiento del Lenguaje Natural, 73, 191-207.
- Huerta, G. & Zuñiga Rojas, G. (2024). Identificación de textos relacionados al cambio climático y sustentabilidad utilizando modelos de lenguaje preentrenados en español. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
- Morales-Garzón, A., Benel Ramirez, S., Tuco Casquino, G., A. Rocha, O., & Medina, A. (2024). Aprendiendo a cocinar de manera saludable con Large Language Models, Supervised Fine Tuning y Retrieval Augmented Generation. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
- Jair Bejarano Sepulveda, E., Nicolai Potes Patiño, H., Pineda Montoya, S., Ivan Rodriguez, F., Enrique Orduy, J., Stevens Traslaviña, D., Mauricio Rosales, A. & Nicolás Madrid, S. (2024). Towards Improved RAC Accessibility: Dataset and LLMs, approach to enhancing RAC accessibility. LatinX in AI (LXAI) Research Workshop @NAACL 2024.











