Reto Principal #HackathonSomosNLP 2025: Alineamiento de LLMs y VLLMs

🎯 Objetivo del reto

Elige una de las siguientes opciones:
- A. Alinea un modelo de lenguaje (LLM) para generar texto de manera culturalmente adecuada
- B. Adapta un modelo multimodal visión-lenguaje (VLLM) para generar descripciones de imágenes teniendo en cuenta el contexto cultural
En español, portugués o cualquier lengua de la Península Ibérica o LATAM
Adapta de un modelo ya existente (no pre-entrenes uno desde cero), recomendamos tomar de base modelos en torno a 7B (e.g. Salamandra, Mistral y Gemma)
¡Genera el dataset con ayuda de 500 USD en créditos de la API de Cohere! Recomendamos filtrar y extender el dataset de preferencias v0 generado en común en la Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
Entrena tu modelo directamente en JupyterLab en el hub de Hugging Face, ¡tenemos GPUs patrocinadas por 🤗!
Sube el modelo(s) junto con todos los notebooks utilizados a hf.co/somosnlp-hackathon-2025
Escribe la Model Card, incluye enlaces al dataset y los notebooks utilizados (e.g. preprocesamiento, entrenamiento)

Guía

✅ Preparación

Requisitos por equipo

Contribuir 100 prompts de calidad al dataset de preferencias
Responder 200 preguntas del dataset de evaluación (BLEND)
Pedir los 500 USD créditos de la API de Cohere (tras completar los puntos 1 y 2, mencionar a @mariagrandury en el canal de vuestro equipo para instrucciones)
Crear en la organización hf.co/somosnlp-hackathon-2025 un Space con la plantilla de jupyterlab
Completar el formulario de registro

📚 Dataset

Los datos son lo más importante en el desarrollo de un modelo y también le daremos mayor importancia a la hora de evaluar los proyectos 👀

Genera un dataset para tu proyecto:
- Toma como versión inicial para tu dataset el generado en común en la Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Aprovecha los 500 USD de créditos de la API de Cohere que tiene cada equipo para filtrarlo, mejorarlo y extenderlo con más prompts y respuestas específicamente diseñados para tu caso de uso
- Ten en cuenta que tratándose de temas culturales, es muy importante que todo lo que se genere sintéticamente sea revisado por una persona (podéis utilizar Argilla)
Sube el dataset a hf.co/somosnlp-hackathon-2025 e itera
Sube al repo del dataset todos los notebooks y scripts utilizados para generar el dataset y procesarlo
- Si prefieres crear un repo en GitHub con todo el código, puedes hacerlo, no olvides de incluir un enlace en la Dataset Card
Cumplimenta bien la Dataset Card
- “Dataset Card” es el nombre de la documentación en los datasets de Hugging Face, es el README.md del repositorio de los datasets
- OJO: Se tiene en cuenta para la evaluación del proyecto
- Incluye en la introducción la motivación del proyecto e impacto
- Detalla el proceso de generación y procesamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
- Especifica la licencia: a poder ser apache-2.0, si no, explica por qué
- Evalúa los sesgos del dataset, si está balanceado, qué variedades del lenguaje u opiniones representa, etc.

Cómo nombrar los datasets:

El nombre del dataset con los (mínimo 100) prompts que enviasteis al LLM Arena debe contener prompt. Por ejemplo: normas_culturales_colombia_prompts
El nombre de los datasets de preferencias deben contener el nombre del algoritmo principal para el que se pueden utilizar (dpo o kto). Por ejemplo: normas_culturales_colombia_dpo
Si el dataset es multimodal, debe contener image. Por ejemplo: utensilios_ecuador_images_kto

⚙️ Modelo

Crear en la organización hf.co/somosnlp-hackathon-2025 un Space con la plantilla de JupyterLab
El equipo de Hugging Face le asignará un grant de una L40S al Space
- Configura el tiempo de “auto-sleep” a 5 minutos para asegurar un uso responsable 🌱
Diseña el notebook de entrenamiento
- Guarda el modelo resultante directamente en hf.co/somosnlp-hackathon-2025
- Utiliza la librería CodeCarbon para evaluar el impacto climático
Haz pruebas con modelos pequeños y subconjuntos del dataset para verificar que el código es correcto y no encontrar bugs después de varias horas de entrenamiento.
Lanza el entrenamiento, revisa los resultados e itera
- Puedes probar e.g. diferentes algoritmos o modelos base
- No hace falta que crees un repo diferente para cada modelo, si haces push a un mismo repo, el modelo actualizado se guardará como un nuevo commit (al que puedes enlazar desde la Model Card si quieres)
Descarga los notebooks de procesamiento del dataset y entrenamiento del modelo, súbelos al repo del modelo (MUY IMPORTANTE) y elimina el Space de JupyterLab
Cumplimenta bien la Model Card
- “Model Card” es el nombre de la documentación en los modelos de Hugging Face, es el README.md del repositorio de los modelos
- OJO: Se tiene en cuenta para la evaluación del proyecto
- Recomendación: Vete describiendo las pruebas según las haces, así como el proceso de mejora del dataset y entrenamiento del modelos
- Incluye en la introducción la motivación del proyecto e impacto
- Detalla el proceso de entrenamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
- Especifica la licencia: a poder ser apache-2.0, si no, explica por qué
- Evalúa los sesgos del modelo
- Evalúa el impacto ambiental

Recursos

A continuación compartimos un montón de recursos para que podáis desarrollar proyectos de gran calidad. Los recursos marcados con ⭐ corresponden a charlas y talleres impartidas durante el hackathon y pensados específicamente para ayudaros en esta edición.

📚 Dataset

La API de Cohere:

⭐ Taller práctico: Cómo utilizar la API de Cohere impartido por Alejandro Rodriguez, Research Engineer en Cohere. Utilizad los modelos de Cohere para limpiar y extender vuestro dataset.

Creación de datasets:

⭐ Red Teaming para modelos de lenguaje, impartido por Luis Vasquez, del equipo de Reinforcement Learning, Alignment & Red Teaming del Barcelona Supercomputing Center.
⭐ MuSeD: Creación de un corpus multimodal en español para la detección de sexismo en vídeos de redes sociales, impartida por Laura De Grazia de la Universitat de Barcelona.
Cómo anotar corpus lingüísticos para entrenar LLMs, impartida por Marta Guerrero @IIC, co-creadora de 3 de los corpus que forman La Leaderboard.
Distilabel y Argilla, herramientas para crear modelos como Notus impartido por Gabriel Martín, MLE @Argilla (notebook disponible).

Inspiración:

⭐ Describing and interpreting interaction using cultural scripts, charla impartida en inglés por Lauren Sadow de la Aarhus University.
⭐ Expresando incertidumbre en tareas multilingües impartida por Selene Báez, investigadora postdoctoral en la University of Zurich.
Ética ambiental en IA: construyendo narrativas sostenibles en español, charla impartida por Jorge Vallego, Project Lead @H4rmony. Os puede servir para darle un enfoque eco-consciente a vuestro dataset.

⚙️ Modelo

Creación del Space de entrenamiento:

Docs: Jupyterlab en Spaces, donde podéis correr vuestros notebooks como siempre. OJO a perder el almacenamiento al reiniciar el Space, ¡guardad los notebooks!

Alineamiento de LLMs:

⭐ Taller práctico: Alineación de LLMs usando Aprendizaje por Refuerzo impartido por Luis Vasquez, del equipo de Reinforcement Learning, Alignment & Red Teaming del Barcelona Supercomputing Center.

Modelos multimodales:

⭐ Charla: Cómo hacer un Modelo Visión-Lenguaje eficiente impartida por Andrés Marafioti, ML Engineer en Hugging Face y creador de SmolVLM.
⭐ Charla: Instruction Tuning para Razonamiento Secuencial Multimodal impartida por Danae Sanchez investigadora postdoctoral en la Universidad de Copenhagen.

Fine-tuning de LLMs:

Taller práctico: El impacto de la calidad de los datos en un FT de LLMs, impartido también por Manu Romero, creador de +500 modelos del Hub de Hugging Face.
Taller práctico: Fine-tuning de grandes modelos de lenguaje impartido por Manu Romero, creador de +500 modelos del Hub de Hugging Face.
Taller + AMA sobre entrenamiento de LLMs con Alejandro Vaca, fundador de LenguajeNaturalAI.
Notebooks de unsloth para entrenar más rápido (en inglés, si necesitáis que los traduzcamos avisadnos): Gemma FT en dataset de instrucciones estilo Alpaca y Hacer RLAIF via DPO sobre Zephir.

Impacto climático:

Para evaluar la huella de carbono del entrenamiento de tu modelo puedes utilizar herramientas como Code Carbon (mejor, integrada en 🤗 Transformers) o ML CO2 Impact.
Te recomendamos este vídeo de motivación, este artículo del blog de HF y la sección de la documentación de 🤗 Transformers que trata este tema.

### 📝 Documentación

Docs: cómo escribir una buena Dataset Card: es la documentación oficial de Hugging Face, incluye una plantilla y un par de buenos ejemplos.
Docs: cómo escribir una Model Card: guía oficial de Hugging Face, incluye un enlace al Space para crearla automáticamente y una explicación de cada sección.
Space: Model Card Creator, Space que os guía en la creación de vuestra model card.
Detección y mitigación de sesgos en modelos de lenguaje, charla impartida por María Grandury, fundadora de SomosNLP.

Volver a los retos