Ha finalizado la cuarta edición del hackathon de SomosNLP, ¡vaya experiencia!

🚀 Proyectos
El enfoque de este hackathon ha sido la generación de recursos abiertos para la evaluación y mejora de la adecuación cultural de los LLMs con los países iberoamericanos.
¿Tienes curiosidad por ver los proyectos que se han desarrollado durante el Hackathon SomosNLP 2025? ¡Aquí están!
🎦 Los vídeos de las presentaciones están disponibles en esta playlist de YouTube junto a los talleres y charlas de especialistas celebrados durante el hackathon.
🤗 Todos los recursos están disponibles en el Hub de Hugging Face: hf.co/somosnlp-hackathon-2025
Esperamos que os gusten y que surjan muchas aplicaciones utilizando estos nuevos recursos abiertos 💛
📚 Benchmark de conocimiento cultural: INCLUDE
Este reto consistía en recolectar exámenes de opción múltiple y extraer las preguntas para generar un gran benchmark de evaluación LLMs enfocado en el conocimiento regional.
En total hemos recogido más de 38.000 preguntas de 23 países 🔥
En particular, conseguimos más de 1.000 preguntas para México, Colombia, Perú, Argentina, Bolivia, España y Ecuador.
¡Muchas gracias por vuestro esfuerzo!
Las personas que más prompts contribuyeron fueron...
Puesto | Nombre | Preguntas extraídas |
---|---|---|
🥇 | Francisco-Javier Rodrigo-Ginés | 4599 |
🥈 | Pablo Carrera | 2830 * |
🥉 | Alfonso Amayuelas | 2300 |
4 | Naira Paola Arnez Jordan | 1581 |
5 | Oscar Cumbicus | 1280 |
6 | Jorge Vallego | 927 |
7 | Juan Calderón | 902 * |
8 | Reewos Talla | 608 * |
9 | Carlos Arriaga | 598 |
10 | Andrea Parra | 577 |
11 | Jorge Téllez | 561 * |
12 | Susana Zhou | 560 |
13 | Enrique Paiva | 502 |
14 | David Quispe | 449 * |
15 | Gonzalo Martínez | 436 |
16 | Guido Ivetta | 393 |
17 | Javier Conde | 377 |
18 | Fabian Perez | 372 |
19 | Andrés Sebastian | 370 |
20 | Gerardo Huerta | 353 |
21 | Marcos J. Gómez | 348 |
22 | David Nazareno Campo | 303 |
23 | Roverico | 303 * |
24 | Henry Mantilla | 302 |
25 | Constanza Jeldres | 300 |
26 | Rasel Agüero Fernández | 300 |
27 | Rosabel F. Medina Sarmiento | 300 |
28 | Adrián Sáez | 227 * |
29 | Gabriela Palomeque | 120 |
La tabla incluye el número de preguntas extraídas (no recolectadas) por cada participante. Los números con asterisco indican que para el pago de la compensación hace falta que la persona confirme la licencia de algunos exámenes. Todas las personas con más de 300 preguntas serán co-autoras del paper de INCLUDE.
📚 Benchmark de conocimiento cultural: BLEND
Este reto consistía en responder preguntas sobre su país para extender el benchmark abierto BLEND de evaluación del conocimiento cultural de LLMs.
Los países con mayor participación fueron España, México, Chile, Cuba y Perú. ¡Gran trabajo! 👏
¡El espacio de anotación sigue abierto, únete!
📚 Validación de estereotipos
Este reto consistía en la recolección y validación de estereotipos respecto a diferentes nacionalidades. En total, conseguimos casi 1.000 estereotipos que nos ayudarán a mitigar los sesgos de los LLMs.
Las personas que más prompts contribuyeron fueron...
Puesto | Discord ID | Estereotipos validados |
---|---|---|
🥇 | bea esparcia | 126 |
🥈 | neovalleltd | 122 |
🥉 | dreamripper1 | 85 |
4 | andres_seba | 70 |
5 | alexis_castillo | 68 |
6 | elena w. | 57 |
7 | alebravo | 30 |
8 | jedzill4 | 27 |
9 | gonznm | 24 |
10 | agumeister | 21 |
11 | adriszmar | 20 |
12 | jorge.vallego | 14 |
13 | jorgeav | 13 |
14 | maria isabel ll | 12 |
15 | clauvallory | 5 |
16 | dramos7 | 5 |
17 | enpaiva93 | 3 |
18 | lucase#5596 | 3 |
19 | alvaro8gb | 2 |
20 | mcdaqc | 2 |
21 | xat. | 2 |
22 | freddyalfonsoboulton | 1 |
23 | roverico | 1 |
24 | valaery | 1 |
25 | yee51 | 1 |
📚 Dataset de preferencias
Este reto consistía en el diseño de prompts que evaluaran la adecuación cultural con cada país y posterior elección de la mejor respuesta en un LLM Arena.
🤗 El dataset con el conjunto de prompts está disponible en Hugging Face: hf.co/datasets/somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
Los países con mayor participación fueron Colombia, Chile, España, Perú, Paraguay, Nicaragua y México.
Las personas que más prompts contribuyeron fueron...
Puesto | Discord ID | Preferencias |
---|---|---|
🥇 | rasel3132 | 430 |
🥈 | bel21093 | 206 |
🥉 | conilinguist | 196 |
4 | roverico | 164 |
5 | pablo.ce | 153 |
6 | steminism | 133 |
7 | andres_seba | 120 |
8 | mcdaqc | 118 |
9 | susanazhou | 111 |
10 | enpaiva93 | 107 |
11 | dreamripper1 | 83 |
12 | bea esparcia | 80 |
13 | angustias22 | 63 |
14 | henry mantilla | 58 |
15 | luceldasilva | 58 |
16 | fabianpp | 50 |
17 | alvaro8gb | 42 |
18 | ghuerta170 | 35 |
19 | edmenciab | 30 |
20 | adriszmar | 22 |
21 | diegoacheve | 21 |
22 | danielcavilla | 19 |
23 | helenpy | 19 |
24 | gonzalo_40146 | 8 |
El número de preferencias es el número de prompts que cada participante mandó a la Arena y votó cuál era la mejor respuesta de las generadas por los LLMs. Este número puede no coincidir con el número de prompts diseñados y subidos al dataset de Hugging Face por cada equipo si no todos los prompts se mandaron a la Arena.
Y los tres mejores corpus fueron… 🥁🥁🥁
- 🥇 TralaleloTralala-MemeAlign
- 🥈 IberoTales
- 🥉 HoCV-COL
Felicidades a los equipos finalistas (por orden alfabético):
- 👏 Comida Colombia + Ecuador
- 👏 Cresia
- 👏 Equipo LeIA
- 👏 Falsos Amigos
- 👏 Refranero Afro-Cubano
- 👏 Sabiduría Popular Castellana
- 👏 Think Paraguayo
¡Enhorabuena a tooodos los equipos!
🎁 Premios y próximos pasos
- Durante el mes de agosto compartiremos más información sobre las menciones de honor y contactaremos a todos los equipos para entregarles los premios correspondientes.
- Si tenéis alguna duda respecto al recuento de puntos, no dudéis en preguntar. El mapeo email-Discord ID se ha hecho con los datos del formulario de registro.
- Si queréis seguir contribuyendo a los mini retos y tener una participación más activa en los papers que vamos a escribir, podéis avisarnos en el canal #compare-tu-proyecto y os invitaremos a los canales privados correspondientes.
- Si en el formulario de entrega mostrasteis interés en publicar un paper presentando vuestro proyecto os contactaremos en septiembre para las mentorías, podéis comenzar a redactar vuestros experimentos en forma de artículo (introducción/motivación, metodología, resultados y análisis).