Reto Principal #HackathonSomosNLP 2025: Alineamiento de LLMs y VLLMs

Cómo participar en este reto y ayudar a mejorar el conocimiento cultural de los modelos de lenguaje y visión-lenguaje


🎯 Objetivo del reto

  • Elige una de las siguientes opciones:
    • A. Alinea un modelo de lenguaje (LLM) para generar texto de manera culturalmente adecuada
    • B. Adapta un modelo multimodal visión-lenguaje (VLLM) para generar descripciones de imágenes teniendo en cuenta el contexto cultural
  • En español, portugués o cualquier lengua de la Península Ibérica o LATAM
  • Adapta de un modelo ya existente (no pre-entrenes uno desde cero), recomendamos tomar de base modelos en torno a 7B (e.g. Salamandra, Mistral y Gemma)
  • ¡Genera el dataset con ayuda de 500 USD en créditos de la API de Cohere! Recomendamos filtrar y extender el dataset de preferencias v0 generado en común en la Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
  • Entrena tu modelo directamente en JupyterLab en el hub de Hugging Face, ¡tenemos GPUs patrocinadas por 🤗!
  • Sube el modelo(s) junto con todos los notebooks utilizados a hf.co/somosnlp-hackathon-2025
  • Escribe la Model Card, incluye enlaces al dataset y los notebooks utilizados (e.g. preprocesamiento, entrenamiento)

Guía

✅ Preparación

Requisitos por equipo
  1. Contribuir 100 prompts de calidad al dataset de preferencias
  2. Responder 200 preguntas del dataset de evaluación (BLEND)
  3. Pedir los 500 USD créditos de la API de Cohere (tras completar los puntos 1 y 2, mencionar a @mariagrandury en el canal de vuestro equipo para instrucciones)
  4. Crear en la organización hf.co/somosnlp-hackathon-2025 un Space con la plantilla de jupyterlab
  5. Completar el formulario de registro

📚 Dataset

Los datos son lo más importante en el desarrollo de un modelo y también le daremos mayor importancia a la hora de evaluar los proyectos 👀

  • Genera un dataset para tu proyecto:
    • Toma como versión inicial para tu dataset el generado en común en la Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
    • Aprovecha los 500 USD de créditos de la API de Cohere que tiene cada equipo para filtrarlo, mejorarlo y extenderlo con más prompts y respuestas específicamente diseñados para tu caso de uso
    • Ten en cuenta que tratándose de temas culturales, es muy importante que todo lo que se genere sintéticamente sea revisado por una persona (podéis utilizar Argilla)
  • Sube el dataset a hf.co/somosnlp-hackathon-2025 e itera
  • Sube al repo del dataset todos los notebooks y scripts utilizados para generar el dataset y procesarlo
    • Si prefieres crear un repo en GitHub con todo el código, puedes hacerlo, no olvides de incluir un enlace en la Dataset Card
  • Cumplimenta bien la Dataset Card
    • “Dataset Card” es el nombre de la documentación en los datasets de Hugging Face, es el README.md del repositorio de los datasets
    • OJO: Se tiene en cuenta para la evaluación del proyecto
    • Incluye en la introducción la motivación del proyecto e impacto
    • Detalla el proceso de generación y procesamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
    • Especifica la licencia: a poder ser apache-2.0, si no, explica por qué
    • Evalúa los sesgos del dataset, si está balanceado, qué variedades del lenguaje u opiniones representa, etc.

Cómo nombrar los datasets:

  • El nombre del dataset con los (mínimo 100) prompts que enviasteis al LLM Arena debe contener prompt. Por ejemplo: normas_culturales_colombia_prompts
  • El nombre de los datasets de preferencias deben contener el nombre del algoritmo principal para el que se pueden utilizar (dpo o kto). Por ejemplo: normas_culturales_colombia_dpo
  • Si el dataset es multimodal, debe contener image. Por ejemplo: utensilios_ecuador_images_kto

⚙️ Modelo

  1. Crear en la organización hf.co/somosnlp-hackathon-2025 un Space con la plantilla de JupyterLab
  2. El equipo de Hugging Face le asignará un grant de una L40S al Space
    • Configura el tiempo de “auto-sleep” a 5 minutos para asegurar un uso responsable 🌱
  3. Diseña el notebook de entrenamiento
  4. Haz pruebas con modelos pequeños y subconjuntos del dataset para verificar que el código es correcto y no encontrar bugs después de varias horas de entrenamiento.
  5. Lanza el entrenamiento, revisa los resultados e itera
    • Puedes probar e.g. diferentes algoritmos o modelos base
    • No hace falta que crees un repo diferente para cada modelo, si haces push a un mismo repo, el modelo actualizado se guardará como un nuevo commit (al que puedes enlazar desde la Model Card si quieres)
  6. Descarga los notebooks de procesamiento del dataset y entrenamiento del modelo, súbelos al repo del modelo (MUY IMPORTANTE) y elimina el Space de JupyterLab
  7. Cumplimenta bien la Model Card
    • “Model Card” es el nombre de la documentación en los modelos de Hugging Face, es el README.md del repositorio de los modelos
    • OJO: Se tiene en cuenta para la evaluación del proyecto
    • Recomendación: Vete describiendo las pruebas según las haces, así como el proceso de mejora del dataset y entrenamiento del modelos
    • Incluye en la introducción la motivación del proyecto e impacto
    • Detalla el proceso de entrenamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
    • Especifica la licencia: a poder ser apache-2.0, si no, explica por qué
    • Evalúa los sesgos del modelo
    • Evalúa el impacto ambiental

Recursos

A continuación compartimos un montón de recursos para que podáis desarrollar proyectos de gran calidad. Los recursos marcados con ⭐ corresponden a charlas y talleres impartidas durante el hackathon y pensados específicamente para ayudaros en esta edición.

📚 Dataset

La API de Cohere:

Creación de datasets:

Inspiración:

⚙️ Modelo

Creación del Space de entrenamiento:

  • Docs: Jupyterlab en Spaces, donde podéis correr vuestros notebooks como siempre. OJO a perder el almacenamiento al reiniciar el Space, ¡guardad los notebooks!

Alineamiento de LLMs:

Modelos multimodales:

Fine-tuning de LLMs:

Impacto climático:

  • Para evaluar la huella de carbono del entrenamiento de tu modelo puedes utilizar herramientas como Code Carbon (mejor, integrada en 🤗 Transformers) o ML CO2 Impact.
  • Te recomendamos este vídeo de motivación, este artículo del blog de HF y la sección de la documentación de 🤗 Transformers que trata este tema.

### 📝 Documentación

Volver a los retos