Retos #HackathonSomosNLP 2025

El hackathon de este año se centra en la creación de recursos que permitan la evaluación y el alineamiento de modelos de lenguaje con la cultura de los países de LATAM y la Península Ibérica. El hackathon se ha extendidohasta el 31 DE MAYO.

El hackathon consta de un reto principal y varios mini retos con los que también podéis acumular puntos para los premios finales y ganar premios extra. La puntuación máxima total es de 10 puntos.

En esta página encontrarás información sobre:

Primeros pasos
Incentivos y premios
Mini retos
Reto principal
Preguntas frecuentes

¡Mucho éxito! 🚀

👣 Primeros pasos

Antes de comenzar, todas las personas tienen que:

✅ Unirse al servidor deDiscord de SomosNLP
✅ Crear una cuenta enHugging Face
✅ Rellenar elformulario de registro
✅ Unirse a laorganización de Hugging Face del hackathon, donde se compartirán los datasets, modelos y demos

Para crear un equipo:

Puedes apuntarte con gente que ya conozcas (por ejemplo, tu grupo de clase o del trabajo) o conocer a gente de la comunidad de SomosNLP de otros países, universidades y empresas. Si quieres conocer a gente, revisa elcanal #encuentra-equipo
Una vez que hayáis creado el equipo, UNA persona tiene queregistrar el equipo

👏 Incentivos y premios

Al participar tendrás la oportunidad de:

✨ Aprender con talleres y charlas en directo
✨ Conseguir acceso a 500 USD de la API de Cohere
✨ Conseguir acceso a una GPU L40S de Hugging Face
✨ Ganar 1000 USD en créditos de la API de Mistral
✨ Ganar cientos de USD en créditos GPU y libros de IA y lenguaje
✨ Ganar acceso a un Máster online de IA
✨ Ganar una entrada para la conferencia online de WomenTech Network
✨ Ganar una nominación a la red de talento Nova
✨ Ganar mentorías con personas relevantes en el campo del PLN
✨ Co-publicar papers en conferencias de PLN internacionales
✨ Conseguir un certificado de participación (o equipo ganador) del hackathon

¡A por ello! 🚀

✨ Mini retos

Participa en estos mini retos para contribuir a la creación de bases de datos que evalúen el conocimiento cultural y estereotipos de los LLMs. ¡Podrás acumular puntos y ganar premios extra!

Exámenes (INCLUDE)

Busca exámenes de opción múltiple para evaluar el conocimiento de los LLMs sobre tu país. Prioriza exámenes en lenguas distintas al español y/o centrados en temas culturales (e.g. historia, literatura).

9 de abril - 31 de mayo

Puntos máximos: 1 pto

Requisitos: Saber buscar en internet

Estereotipos

Comparte y evalúa estereotipos para ayudar a mitigar sesgos de los LLMs.

9 de abril - 21 de mayo

Puntos máximos: 1 pto

Requisitos: Haber vivido en sociedad

Preguntas culturales (BLEND)

Responde preguntas sobre tu país para evaluar el conocimiento cultural de LLMs. Utilizaremos estas respuestas para extender el benchmark abierto BLEND.

14 de abril - 31 de mayo

Puntos máximos: 2 ptos

Requisitos: Haber vivido en sociedad

🔥 Reto principal

Genera un dataset de preferencias
Alinea un modelo textual (opción A) o multimodal (opción B), a elegir
Crea una demo de tu proyecto
Presenta tu proyecto en un vídeo de 5 mins
(Opcional) escribe un paper presentando tu proyecto

1. Genera un dataset de preferencias

Diseña prompts que evalúen la adecuación cultural con tu país y elige la mejor respuesta en un LLM Arena. Los prompts y las respuestas serán recolectados y compartidos con todos los equipos participantes como dataset de preferencias v0 para la fase de alineamiento.

14 de abril - 21 de mayo

Puntos máximos: 3 ptos

Requisitos: Haber vivido en sociedad y querer comprender bien el concepto de adecuación cultural

2.A. Alinea un modelo textual (LLM)

Procesa, filtra y extiende el dataset de preferencias v0 adaptándolo a tu caso de uso. Utilízalo para alinear un LLM usando técnicas de entrenamiento optimizado y alineamiento como LoRA, cuantización y optimización directa de preferencias (DPO).

21 de abril - 31 de mayo (Máx. 2 semanas)

Puntos máximos: 3 ptos

Requisitos: Saber programar

2.B. Alinea un modelo multimodal

Genera un dataset de imágenes y descripciones utilizando la API de Cohere. Utilízalo para crear un modelo multimodal (VLLM) que genere descripciones de imágenes teniendo en cuenta el contexto usando las últimas técnicas de entrenamiento optimizado.

21 de abril - 31 de mayo (Máx. 2 semanas)

Puntos máximos: 3 ptos

Requisitos: Tener experiencia en PLN

3. Crea de una demo

Crea una demo de tu proyecto en un Space de HuggingFace para que todo el mundo pueda ver tu trabajo.

Hasta el 31 de mayo

Puntos máximos: 0.5 ptos

Requisitos: Haber completado algún reto principal

4. Graba un vídeo

Graba un vídeo 5 minutos presentando tu proyecto para el jurado y el resto de la comunidad.

Envío hasta el 1 de junio

Puntos máximos: 0.5 ptos

Requisitos: Haber completado algún reto principal

5. (Opcional) Escribe un paper

Escribe un paper describiendo tu proyecto. Si te interesa, te podemos mentorizar y ayudar a mandarlo a un workshop de LatinX in NLP.

A partir de junio

Puntos máximos: 0.5 ptos

Requisitos: Haber completado algún reto principal

❓ Preguntas frecuentes

¿Por qué debería participar?

Al unirte a este hackathon tendrás la oportunidad de:

✅ Comprender cómo funcionan los grandes modelos del lenguaje, tanto textuales (LLMs) como multimodales (VLLMs) y descubrir los retos de cada etapa de su desarrollo: creación del corpus, entrenamiento, alineamiento y evaluación
✅ Participar en la creación del primer corpus de preferencias de calidad y diverso para alinear LLMs con la cultura de los países de LATAM y la Península Ibérica (top como experiencia y top para el CV)
✅ Ser parte del equipo que cree algunas de las bases de datos de la primera leaderboard abierta de LLMs en español: La Leaderboard
✅ Resolver todas tus dudas sobre PLN durante sesiones de mentoría “Ask My Anything”
✅ Recibir apoyo para presentar tu trabajo en un paper
✅ Ganar premios para seguir creciendo como profesional y conseguir un certificado que poder compartir en LinkedIn
✅ Unirte a la mayor comunidad de hispanohablantes que estudian, trabajan e investigan en PLN

¿Cuál es el nivel necesario?

Desde el equipo de SomosNLP queremos animarte a participar independientemente de tus conocimientos actuales. En ediciones anteriores hemos contado con grupos de institutos de investigación y grupos de estudiantes de grado, ¡todos los proyectos suman!

📖 Impartiremos una serie detalleres prácticosmostrándote cómo desarrollar un proyecto para que tengas un ejemplo de referencia.

❓ OrganizaremosAMAs(del inglés, Ask Me Anything) con expertas y mentores para que puedan solucionar tus dudas.

¿De qué depende la complejidad de los proyectos?

Proporcionaremos un ejemplo de cómo crear un dataset, entrenar un modelo y crear una demo. Depende de ti y tu equipo elegir cuánto investigar y trabajar para mejorar la versión base. La dificultad también depende del caso de uso, el origen de los datos, el tiempo que dediquéis a su curación, la técnica de entrenamiento, las iteraciones que hagáis y lo elaborada que queráis que sea vuestra demo. ¡Sois libres de elegir todo!

¿De verdad se necesitan 4 semanas?

No, depende de tu disponibilidad, puedes desarrollar un buen proyecto en una semana. Tenemos en cuenta que las personas estudian y trabajan, por lo que dejamos más tiempo del necesario para que todo el mundo pueda participar. También queremos daros tiempo extra para que disfrutéis la oportunidad de asistir en directo a las ponencias y mentorías celebradas durante el hackathon.

¿Hasta cuándo puedo crear un equipo?

EDITADO: Damos la bienvenida a nuevos equipos hasta el 23 de mayo. El día final para entregar proyectos es el 31 de mayo.

¿Cómo me uno a un equipo?

Lee la sección “Para crear un equipo:” al comienzo de esta página y el README en el canal #encuentra-equipo de nuestro servidor de Discord :)

¿Puede haber equipos de 1 persona?

Sí, aceptamos equipos de 1 a 5 personas.

¿Cómo nos recomendáis organizarnos?

Utilizar el canal de vuestro proyecto en Discord para comunicaros y organizaros.
Dado que es un hackathon internacional recomendamos una comunicación asíncrona o que os repartáis el trabajo y hagáis reuniones de menos personas
Fijar reuniones o hablar espontáneamente utilizando los nuevos canales de voz de la categoría “SALAS DE REUNIÓN” de Discord
Fijar en el canal del proyecto los mensajes importantes, e.g.: repartición de tareas, día de la próxima reunión, … Para fijar un mensaje haz click en los tres puntitos y selecciona “Fijar mensaje”
Para mayor claridad también podéis crear un documento compartido con las personas del equipo en el que escribir el objetivo del proyecto, repartir tareas y demás (y fijar el enlace en el chat)

No entiendo Discord, ¿cuáles son los canales más importantes?

Revisa el canal#anuncios, recomendamos activar las notificaciones del canal, publicamos 2/3 veces a la semana
Pregunta tus dudas en el canal#pide-ayudade Discord para que todo el mundo pueda beneficiarse de la respuesta
Los eventos los anunciamos en el canal#eventosy los añadimos alcalendario de Google

¿Cómo me puedo enterar de los eventos?

Anunciamos los eventos en el canal#eventos
Los añadimos alcalendario de Google
Los anunciamos en redes sociales (LinkedIn,X (Twitter))
Síguenos en YouTubey guarda laplaylist del hackathon 2025

¿Cómo puedo dar feedback del evento?

Nos puedes dar feedback para mejorar las guías de los retos con esteformulario(anónimo)
Compartiremos también un formulario de feedback general al final del evento

Si te hemos dicho que en esta página hay info que no encuentras, borra las cookies y recarga la página.

🙌 Otras maneras de apoyar la adecuación cultural de los LLMs

¿Cómo puedo colaborar?

Comparte los posts de las cuentas de @SomosNLP (LinkedIn,X (Twitter)), ¡invita a tus colegas del trabajo, compañeros y compañeras de clase a crear un equipo!

¿Estás en la uni?Comparte esta info con tu profeo alguien del grupo de IA/informática para que tu universidad colabore con el evento.

¿Quieres apoyar la iniciativa dando visibilidad, patrocinando vales o con una donación económica? ¡Patrocina el hackathon!