Somos 600M de hispanohablantes y 265M de personas lusófonas en el mundo. El español y el portugués son los idiomas principales en 29 países, cada uno de ellos con una gran riqueza cultural. Aunque los modelos de lenguaje muestran cada vez mayores capacidades multilingües, ¿son realmente multiculturales? Únete ya al #HackathonSomosNLP, el mayor hackathon open-source de Procesamiento del Lenguaje Natural en español y portugués 🚀
📊 ¡Lanzamos la quinta edición!
Desde 2022, sumamos…
En esta quinta edición nos vamos a centrar en la creación de recursos que nos permitan evaluar y mejorar la adecuación cultural de los grandes modelos de lenguaje respecto a cada uno de los países de LATAM y la Península Ibérica.
¿Lo mejor? ¡TODO EL MUNDO puede colaborar! 🎉

🚀 Cómo puedes colaborar
Manda preguntas sobre tu cultura a LLMs
Haz preguntas a LLMs y elige cuáles están más alineados con tu cultura.
Regístrate yaCrea un modelo de lenguaje
Desarrolla un LLM alineado con tu cultura. Equipos de 1-5 personas: genera un dataset, alinea un modelo y crea una demo.
Regístrate yaDifunde el evento
Ayúdanos a que esta iniciativa llegue a más personas. A partir de 4 publicaciones añadiremos vuestro logo a la web.
DifundeÚnete al equipo
Colabora creando contenido, recursos de apoyo, tutoriales, artículos o investigando sobre Cultural NLP.
ÚneteOfrece una mentoría
Comparte tu experiencia apoyando a los equipos a crear datasets de calidad y entrenar buenos LLMs. Mentorías puntuales o continuas.
Ofrece mentoríaPatrocina el evento
Apoya nuestra misión ofreciendo visibilidad, vales o donaciones. SomosNLP es una comunidad sin ánimo de lucro.
Ver opciones🏆 Casos de éxito
Los proyectos del hackathon generan impacto real:
🏅 BiomedIA
Sistema voz-a-voz de Q&A biomédico. Dio lugar a un paper en NAACL 2022 con el Premio a la Mejor Presentación de Póster.
⚖️ Modelo Jurídico Mexicano
Modelo de conocimiento jurídico utilizado por la Suprema Corte de Justicia de la Nación de México.
📰 NoticIA
Corpus de 850 artículos de noticias clickbait en español con resúmenes de alta calidad, abordando la desinformación digital. Publicado en SEPLN 2024.
🤝 AsistenciaRefugiados
Asistente legal para personas en situación de refugio, facilitando el acceso a información sobre legislación en España.
🤝 BERT Sostenible
Identificación de textos relacionados al cambio climático y sustentabilidad utilizando modelos de lenguaje preentrenados en español. LatinX in AI (LXAI) Research Workshop @NAACL 2024. Best paper en KHIPU 2025.
🤝 Cocina saludable
Aprendiendo a cocinar de manera saludable con Large Language Models, Supervised Fine Tuning y Retrieval Augmented Generation. LatinX in AI (LXAI) Research Workshop @NAACL 2024.
📚 Dataset de instrucciones
Se generaron más de 1M instrucciones, creando el mayor dataset de entrenamiento supervisado en español. Paper #Somos600M publicado en el workshop LatinX in NLP @NAACL 2024. Entrevista en el periódico El País.
📚 INCLUDE: Benchmark de conocimiento cultural
Se recolectaron más de 38.000 preguntas de exámenes de 23 países, creando el mayor benchmark de evaluación de conocimiento cultural para LLMs en español y portugués.
💡 Ponencias y mentorías
Tendrás la oportunidad de aprender de líderes de la academia y la industria, ¡iremos anunciando nuevas ponencias y mentorías!
👏 Agradecimientos
Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a hacer los modelos de lenguaje más inclusivos!
🚀 Organizado por
🥇 Oro
🥈 Plata
🤗 ¡Conecta!
Para estar al día de todos los eventos y avances:



