🎯 Objetivo do desafio
- Escolha uma das opções a seguir:
- A. Alinhe um modelo de linguagem (LLM) para gerar texto de forma culturalmente adequada
- B. Adapte um modelo multimodal visão linguagem (VLLM) para gerar descrições de imagens levando em conta o contexto cultural
- Em espanhol, português ou qualquer língua da Península Ibérica ou da América Latina
- Adapte um modelo já existente (não pré treine um do zero). Recomendamos partir de modelos em torno de 7B (e.g. Salamandra, Mistral e Gemma)
- Gere o dataset com a ajuda de 500 USD em créditos da API da Cohere! Recomendamos filtrar e estender o dataset de preferências v0 gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Treine seu modelo diretamente em JupyterLab no hub do Hugging Face. Temos GPUs patrocinadas pela 🤗!
- Faça upload do(s) modelo(s) junto com todos os notebooks utilizados para hf.co/somosnlp-hackathon-2026
- Escreva a Model Card. Inclua links para o dataset e para os notebooks utilizados (e.g. pré processamento, treinamento)
Guia
✅ Preparação
Requisitos por equipe
- Contribuir com 100 prompts de qualidade ao dataset de preferências
- Responder 200 perguntas do dataset de avaliação (BLEND)
- Pedir os 500 USD em créditos da API da Cohere (depois de completar os pontos 1 e 2, mencione @mariagrandury no canal da equipe de vocês para receber instruções)
- Criar na organização hf.co/somosnlp-hackathon-2026 um Space com o template de jupyterlab
- Preencher o formulário de registro
📚 Dataset
Os dados são o mais importante no desenvolvimento de um modelo, e também vamos dar mais peso a eles na hora de avaliar os projetos 👀
- Gere um dataset para o seu projeto:
- Use como versão inicial do seu dataset o que foi gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Aproveite os 500 USD em créditos da API da Cohere que cada equipe tem para filtrar, melhorar e estender com mais prompts e respostas pensados especificamente para o seu caso de uso
- Lembre que, tratando se de temas culturais, é muito importante que tudo o que for gerado sinteticamente seja revisado por uma pessoa (vocês podem usar Argilla)
- Faça upload do dataset para hf.co/somosnlp-hackathon-2026 e itere
- Faça upload para o repo do dataset de todos os notebooks e scripts usados para gerar e processar o dataset
- Se preferir criar um repo no GitHub com todo o código, pode fazer isso. Só não esqueça de incluir um link na Dataset Card
- Preencha bem a Dataset Card
- “Dataset Card” é o nome da documentação dos datasets do Hugging Face. É o README.md do repositório dos datasets
- ATENÇÃO: É levado em conta na avaliação do projeto
- Inclua na introdução a motivação do projeto e o seu impacto
- Detalhe o processo de geração e processamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
- Especifique a licença: de preferência
apache-2.0. Se não, explique por quê - Avalie os vieses do dataset, se está balanceado, que variedades da língua ou opiniões representa, etc.
Como nomear os datasets:
- O nome do dataset com os (mínimo 100) prompts que vocês enviaram para a LLM Arena precisa conter
prompt. Por exemplo:normas_culturales_colombia_prompts - O nome dos datasets de preferências precisa conter o nome do algoritmo principal para o qual podem ser usados (
dpooukto). Por exemplo:normas_culturales_colombia_dpo - Se o dataset for multimodal, precisa conter
image. Por exemplo:utensilios_ecuador_images_kto
⚙️ Modelo
- Crie na organização hf.co/somosnlp-hackathon-2026 um Space com o template de JupyterLab
- A equipe da Hugging Face vai atribuir um grant de uma L40S ao Space
- Configure o tempo de “auto sleep” para 5 minutos para garantir um uso responsável 🌱
- Desenhe o notebook de treinamento
- Salve o modelo resultante diretamente em hf.co/somosnlp-hackathon-2026
- Use a biblioteca CodeCarbon para avaliar o impacto climático
- Faça testes com modelos pequenos e subconjuntos do dataset para verificar que o código está correto e não encontrar bugs depois de várias horas de treinamento.
- Lance o treinamento, revise os resultados e itere
- Você pode experimentar e.g. diferentes algoritmos ou modelos base
- Não precisa criar um repo diferente para cada modelo. Se você fizer push para o mesmo repo, o modelo atualizado fica salvo como um novo commit (ao qual você pode linkar a partir da Model Card se quiser)
- Baixe os notebooks de processamento do dataset e de treinamento do modelo, faça upload deles para o repo do modelo (MUITO IMPORTANTE) e elimine o Space de JupyterLab
- Preencha bem a Model Card
- “Model Card” é o nome da documentação dos modelos do Hugging Face. É o README.md do repositório dos modelos
- ATENÇÃO: É levado em conta na avaliação do projeto
- Recomendação: vá descrevendo os testes à medida que faz, assim como o processo de melhoria do dataset e de treinamento do modelo
- Inclua na introdução a motivação do projeto e o seu impacto
- Detalhe o processo de treinamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
- Especifique a licença: de preferência
apache-2.0. Se não, explique por quê - Avalie os vieses do modelo
- Avalie o impacto ambiental
Recursos
A seguir compartilhamos vários recursos para que vocês possam desenvolver projetos de grande qualidade. Os recursos marcados com ⭐ correspondem a palestras e workshops dados durante o hackathon e pensados especificamente para ajudar nesta edição.
📚 Dataset
A API da Cohere:
- ⭐ Workshop prático: Como usar a API da Cohere dado por Alejandro Rodriguez, Research Engineer na Cohere. Usem os modelos da Cohere para limpar e estender o dataset de vocês.
Criação de datasets:
- ⭐ Red Teaming para modelos de linguagem, dado por Luis Vasquez, da equipe de Reinforcement Learning, Alignment & Red Teaming do Barcelona Supercomputing Center.
- ⭐ MuSeD: Criação de um corpus multimodal em espanhol para a detecção de sexismo em vídeos de redes sociais, dado por Laura De Grazia da Universitat de Barcelona.
- Como anotar corpora linguísticos para treinar LLMs, dado por Marta Guerrero @IIC, co criadora de 3 dos corpora que formam La Leaderboard.
- Distilabel e Argilla, ferramentas para criar modelos como o Notus dado por Gabriel Martín, MLE @Argilla (notebook disponível).
Inspiração:
- ⭐ Describing and interpreting interaction using cultural scripts (palestra em inglês), dada por Lauren Sadow da Aarhus University.
- ⭐ Expressando incerteza em tarefas multilíngues, dada por Selene Báez, pesquisadora pós doutoral na University of Zurich.
- Ética ambiental em IA: construindo narrativas sustentáveis em espanhol, palestra dada por Jorge Vallego, Project Lead @H4rmony. Pode servir para dar uma abordagem eco consciente ao dataset de vocês.
⚙️ Modelo
Criação do Space de treinamento:
- Docs: JupyterLab em Spaces, onde vocês podem rodar os notebooks como sempre. ATENÇÃO para não perder o armazenamento ao reiniciar o Space, salvem os notebooks!
Alinhamento de LLMs:
- ⭐ Workshop prático: Alinhamento de LLMs usando Aprendizagem por Reforço dado por Luis Vasquez, da equipe de Reinforcement Learning, Alignment & Red Teaming do Barcelona Supercomputing Center.
Modelos multimodais:
- ⭐ Palestra: Como fazer um Modelo Visão Linguagem eficiente dada por Andrés Marafioti, ML Engineer na Hugging Face e criador do SmolVLM.
- ⭐ Palestra: Instruction Tuning para Raciocínio Sequencial Multimodal dada por Danae Sanchez, pesquisadora pós doutoral na Universidade de Copenhague.
Fine tuning de LLMs:
- Workshop prático: O impacto da qualidade dos dados em um FT de LLMs, dado também por Manu Romero, criador de mais de 500 modelos do Hub do Hugging Face.
- Workshop prático: Fine tuning de grandes modelos de linguagem dado por Manu Romero, criador de mais de 500 modelos do Hub do Hugging Face.
- Workshop + AMA sobre treinamento de LLMs com Alejandro Vaca, fundador da LenguajeNaturalAI.
- Notebooks de
unslothpara treinar mais rápido (em inglês, se precisarem que a gente traduza, avisem): Gemma FT em dataset de instruções estilo Alpaca e Fazer RLAIF via DPO sobre Zephyr.
Impacto climático:
- Para avaliar a pegada de carbono do treinamento do seu modelo, você pode usar ferramentas como o Code Carbon (melhor, integrado em 🤗 Transformers) ou o ML CO2 Impact.
- Recomendamos este vídeo de motivação, este artigo do blog da HF e a seção da documentação de 🤗 Transformers que aborda este tema.
📝 Documentação
- Docs: como escrever uma boa Dataset Card: é a documentação oficial do Hugging Face, inclui um template e alguns bons exemplos.
- Docs: como escrever uma Model Card: guia oficial do Hugging Face, inclui um link para o Space para criar automaticamente e uma explicação de cada seção.
- Space: Model Card Creator, Space que guia vocês na criação da model card de vocês.
- Detecção e mitigação de vieses em modelos de linguagem, palestra dada por María Grandury, fundadora da SomosNLP.