🎯 Objetivo del reto
- Elige una de las siguientes opciones:
- A. Alinea unmodelo de lenguaje(LLM) para generar texto de manera culturalmente adecuada
- B. Adapta unmodelo multimodal visión-lenguaje(VLLM) para generar descripciones de imágenes teniendo en cuenta el contexto cultural
- En español, portugués o cualquier lengua de la Península Ibérica o LATAM
- Adapta de un modelo ya existente (no pre-entrenes uno desde cero), recomendamos tomar de base modelos en torno a 7B (e.g.Salamandra,MistralyGemma)
- ¡Genera el dataset con ayuda de 500 USD en créditos de la API de Cohere! Recomendamos filtrar y extender el dataset de preferencias v0 generado en común en la Arena:somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Entrena tu modelo directamente en JupyterLab en el hub de Hugging Face, ¡tenemos GPUs patrocinadas por 🤗!
- Sube el modelo(s) junto con todos los notebooks utilizados ahf.co/somosnlp-hackathon-2025
- Escribe laModel Card, incluye enlaces al dataset y los notebooks utilizados (e.g. preprocesamiento, entrenamiento)
Guía
✅ Preparación
Requisitos por equipo
- Contribuir 100 promptsde calidadal dataset depreferencias
- Responder 200 preguntas del dataset de evaluación (BLEND)
- Pedir los 500 USD créditos de la API de Cohere (tras completar los puntos 1 y 2, mencionar a @mariagrandury en el canal de vuestro equipo para instrucciones)
- Crear en la organizaciónhf.co/somosnlp-hackathon-2025un Space con la plantilla dejupyterlab
- Completar elformulario de registro
📚 Dataset
Los datos son lo más importante en el desarrollo de un modelo y también le daremos mayor importancia a la hora de evaluar los proyectos 👀
- Genera un dataset para tu proyecto:
- Toma como versión inicial para tu dataset el generado en común en la Arena:somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Aprovecha los 500 USD de créditos de la API de Cohere que tiene cada equipo para filtrarlo, mejorarlo y extenderlo con más prompts y respuestas específicamente diseñados para tu caso de uso
- Ten en cuenta que tratándose de temas culturales, es muy importante que todo lo que se genere sintéticamente sea revisado por una persona (podéis utilizarArgilla)
- Sube el dataset ahf.co/somosnlp-hackathon-2025e itera
- Sube al repo del dataset todos los notebooks y scripts utilizados para generar el dataset y procesarlo
- Si prefieres crear un repo en GitHub con todo el código, puedes hacerlo, no olvides de incluir un enlace en la Dataset Card
- Cumplimentabienla Dataset Card
- “Dataset Card” es el nombre de la documentación en los datasets de Hugging Face, es elREADME.mddel repositorio de los datasets
- OJO: Se tiene en cuenta para la evaluación del proyecto
- Incluye en la introducción la motivación del proyecto e impacto
- Detalla el proceso de generación y procesamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
- Especifica la licencia: a poder ser
apache-2.0
, si no, explica por qué - Evalúa los sesgos del dataset, si está balanceado, qué variedades del lenguaje u opiniones representa, etc.
Cómo nombrar los datasets:
- El nombre del dataset con los (mínimo 100) prompts que enviasteis al LLM Arena debe contener
prompt
. Por ejemplo:normas_culturales_colombia_prompts
- El nombre de los datasets de preferencias deben contener el nombre del algoritmo principal para el que se pueden utilizar (
dpo
okto
). Por ejemplo:normas_culturales_colombia_dpo
- Si el dataset es multimodal, debe contener
image
. Por ejemplo:utensilios_ecuador_images_kto
⚙️ Modelo
- Crear en la organizaciónhf.co/somosnlp-hackathon-2025un Space con la plantilla deJupyterLab
- El equipo de Hugging Face le asignará un grant de unaL40Sal Space
- Configura el tiempo de “auto-sleep” a 5 minutos para asegurar un uso responsable 🌱
- Diseña el notebook de entrenamiento
- Guarda el modelo resultante directamente enhf.co/somosnlp-hackathon-2025
- Utiliza la librería CodeCarbon para evaluar el impacto climático
- Haz pruebas con modelos pequeños y subconjuntos del dataset para verificar que el código es correcto y no encontrar bugs después de varias horas de entrenamiento.
- Lanza el entrenamiento, revisa los resultados e itera
- Puedes probar e.g. diferentes algoritmos o modelos base
- No hace falta que crees un repo diferente para cada modelo, si haces push a un mismo repo, el modelo actualizado se guardará como un nuevo commit (al que puedes enlazar desde la Model Card si quieres)
- Descarga los notebooks de procesamiento del dataset y entrenamiento del modelo, súbelos al repo del modelo(MUY IMPORTANTE) y elimina el Space de JupyterLab
- Cumplimentabienla Model Card
- “Model Card” es el nombre de la documentación en los modelos de Hugging Face, es elREADME.mddel repositorio de los modelos
- OJO: Se tiene en cuenta para la evaluación del proyecto
- Recomendación: Vete describiendo las pruebas según las haces, así como el proceso de mejora del dataset y entrenamiento del modelos
- Incluye en la introducción la motivación del proyecto e impacto
- Detalla el proceso de entrenamiento, incluye las librerías utilizadas y menciona las pruebas hechas, incluye los enlaces al código
- Especifica la licencia: a poder ser
apache-2.0
, si no, explica por qué - Evalúa los sesgos del modelo
- Evalúa el impacto ambiental
Recursos
A continuación compartimos un montón de recursos para que podáis desarrollar proyectos de gran calidad. Los recursos marcados con ⭐ corresponden a charlas y talleres impartidas durante el hackathon y pensados específicamente para ayudaros en esta edición.
📚 Dataset
La API de Cohere:
- ⭐Taller práctico: Cómo utilizar la API de Cohereimpartido por Alejandro Rodriguez, Research Engineer en Cohere. Utilizad los modelos de Cohere para limpiar y extender vuestro dataset.
Creación de datasets:
- ⭐Red Teaming para modelos de lenguaje, impartido por Luis Vasquez, del equipo de Reinforcement Learning, Alignment & Red Teaming del Barcelona Supercomputing Center.
- ⭐MuSeD: Creación de un corpus multimodal en español para la detección de sexismo en vídeos de redes sociales, impartida por Laura De Grazia de la Universitat de Barcelona.
- Cómo anotar corpus lingüísticos para entrenar LLMs, impartida por Marta Guerrero @IIC, co-creadora de 3 de los corpus que forman La Leaderboard.
- Distilabel y Argilla, herramientas para crear modelos como Notusimpartido por Gabriel Martín, MLE @Argilla (notebook disponible).
Inspiración:
- ⭐Describing and interpreting interaction using cultural scripts, charla impartida en inglés por Lauren Sadow de la Aarhus University.
- ⭐Expresando incertidumbre en tareas multilingüesimpartida por Selene Báez, investigadora postdoctoral en la University of Zurich.
- Ética ambiental en IA: construyendo narrativas sostenibles en español, charla impartida por Jorge Vallego, Project Lead @H4rmony. Os puede servir para darle un enfoque eco-consciente a vuestro dataset.
⚙️ Modelo
Creación del Space de entrenamiento:
- Docs: Jupyterlab en Spaces, donde podéis correr vuestros notebooks como siempre. OJO a perder el almacenamiento al reiniciar el Space, ¡guardad los notebooks!
Alineamiento de LLMs:
- ⭐Taller práctico: Alineación de LLMs usando Aprendizaje por Refuerzoimpartido por Luis Vasquez, del equipo de Reinforcement Learning, Alignment & Red Teaming del Barcelona Supercomputing Center.
Modelos multimodales:
- ⭐Charla: Cómo hacer un Modelo Visión-Lenguaje eficienteimpartida por Andrés Marafioti, ML Engineer en Hugging Face y creador de SmolVLM.
- ⭐Charla: Instruction Tuning para Razonamiento Secuencial Multimodalimpartida por Danae Sanchez investigadora postdoctoral en la Universidad de Copenhagen.
Fine-tuning de LLMs:
- Taller práctico: El impacto de la calidad de los datos en un FT de LLMs, impartido también por Manu Romero, creador de +500 modelos del Hub de Hugging Face.
- Taller práctico: Fine-tuning de grandes modelos de lenguajeimpartido por Manu Romero, creador de +500 modelos del Hub de Hugging Face.
- Taller + AMA sobre entrenamiento de LLMscon Alejandro Vaca, fundador de LenguajeNaturalAI.
- Notebooks de
unsloth
para entrenar más rápido (en inglés, si necesitáis que los traduzcamos avisadnos):Gemma FT en dataset de instrucciones estilo AlpacayHacer RLAIF via DPO sobre Zephir.
Impacto climático:
- Para evaluar la huella de carbono del entrenamiento de tu modelo puedes utilizar herramientas comoCode Carbon(mejor, integrada en 🤗 Transformers) oML CO2 Impact.
- Te recomendamos estevídeode motivación, esteartículodel blog de HF y la sección de ladocumentaciónde 🤗 Transformers que trata este tema.
### 📝 Documentación
- Docs: cómo escribir una buena Dataset Card: es la documentación oficial de Hugging Face, incluye una plantilla y un par de buenos ejemplos.
- Docs: cómo escribir una Model Card: guía oficial de Hugging Face, incluye un enlace al Space para crearla automáticamente y una explicación de cada sección.
- Space: Model Card Creator, Space que os guía en la creación de vuestra model card.
- Detección y mitigación de sesgos en modelos de lenguaje, charla impartida por María Grandury, fundadora de SomosNLP.