Desafio Principal #HackathonSomosNLP 2026: Alinhamento de LLMs e VLLMs

🎯 Objetivo do desafio

Escolha uma das opções a seguir:
- A. Alinhe um modelo de linguagem (LLM) para gerar texto de forma culturalmente adequada
- B. Adapte um modelo multimodal visão linguagem (VLLM) para gerar descrições de imagens levando em conta o contexto cultural
Em espanhol, português ou qualquer língua da Península Ibérica ou da América Latina
Adapte um modelo já existente (não pré treine um do zero). Recomendamos partir de modelos em torno de 7B (e.g. Salamandra, Mistral e Gemma)
Gere o dataset com a ajuda de 500 USD em créditos da API da Cohere! Recomendamos filtrar e estender o dataset de preferências v0 gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
Treine seu modelo diretamente em JupyterLab no hub do Hugging Face. Temos GPUs patrocinadas pela 🤗!
Faça upload do(s) modelo(s) junto com todos os notebooks utilizados para hf.co/somosnlp-hackathon-2026
Escreva a Model Card. Inclua links para o dataset e para os notebooks utilizados (e.g. pré processamento, treinamento)

Guia

✅ Preparação

Requisitos por equipe

Contribuir com 100 prompts de qualidade ao dataset de preferências
Responder 200 perguntas do dataset de avaliação (BLEND)
Pedir os 500 USD em créditos da API da Cohere (depois de completar os pontos 1 e 2, mencione @mariagrandury no canal da equipe de vocês para receber instruções)
Criar na organização hf.co/somosnlp-hackathon-2026 um Space com o template de jupyterlab
Preencher o formulário de registro

📚 Dataset

Os dados são o mais importante no desenvolvimento de um modelo, e também vamos dar mais peso a eles na hora de avaliar os projetos 👀

Gere um dataset para o seu projeto:
- Use como versão inicial do seu dataset o que foi gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
- Aproveite os 500 USD em créditos da API da Cohere que cada equipe tem para filtrar, melhorar e estender com mais prompts e respostas pensados especificamente para o seu caso de uso
- Lembre que, tratando se de temas culturais, é muito importante que tudo o que for gerado sinteticamente seja revisado por uma pessoa (vocês podem usar Argilla)
Faça upload do dataset para hf.co/somosnlp-hackathon-2026 e itere
Faça upload para o repo do dataset de todos os notebooks e scripts usados para gerar e processar o dataset
- Se preferir criar um repo no GitHub com todo o código, pode fazer isso. Só não esqueça de incluir um link na Dataset Card
Preencha bem a Dataset Card
- “Dataset Card” é o nome da documentação dos datasets do Hugging Face. É o README.md do repositório dos datasets
- ATENÇÃO: É levado em conta na avaliação do projeto
- Inclua na introdução a motivação do projeto e o seu impacto
- Detalhe o processo de geração e processamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
- Especifique a licença: de preferência apache-2.0. Se não, explique por quê
- Avalie os vieses do dataset, se está balanceado, que variedades da língua ou opiniões representa, etc.

Como nomear os datasets:

O nome do dataset com os (mínimo 100) prompts que vocês enviaram para a LLM Arena precisa conter prompt. Por exemplo: normas_culturales_colombia_prompts
O nome dos datasets de preferências precisa conter o nome do algoritmo principal para o qual podem ser usados (dpo ou kto). Por exemplo: normas_culturales_colombia_dpo
Se o dataset for multimodal, precisa conter image. Por exemplo: utensilios_ecuador_images_kto

⚙️ Modelo

Crie na organização hf.co/somosnlp-hackathon-2026 um Space com o template de JupyterLab
A equipe da Hugging Face vai atribuir um grant de uma L40S ao Space
- Configure o tempo de “auto sleep” para 5 minutos para garantir um uso responsável 🌱
Desenhe o notebook de treinamento
- Salve o modelo resultante diretamente em hf.co/somosnlp-hackathon-2026
- Use a biblioteca CodeCarbon para avaliar o impacto climático
Faça testes com modelos pequenos e subconjuntos do dataset para verificar que o código está correto e não encontrar bugs depois de várias horas de treinamento.
Lance o treinamento, revise os resultados e itere
- Você pode experimentar e.g. diferentes algoritmos ou modelos base
- Não precisa criar um repo diferente para cada modelo. Se você fizer push para o mesmo repo, o modelo atualizado fica salvo como um novo commit (ao qual você pode linkar a partir da Model Card se quiser)
Baixe os notebooks de processamento do dataset e de treinamento do modelo, faça upload deles para o repo do modelo (MUITO IMPORTANTE) e elimine o Space de JupyterLab
Preencha bem a Model Card
- “Model Card” é o nome da documentação dos modelos do Hugging Face. É o README.md do repositório dos modelos
- ATENÇÃO: É levado em conta na avaliação do projeto
- Recomendação: vá descrevendo os testes à medida que faz, assim como o processo de melhoria do dataset e de treinamento do modelo
- Inclua na introdução a motivação do projeto e o seu impacto
- Detalhe o processo de treinamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
- Especifique a licença: de preferência apache-2.0. Se não, explique por quê
- Avalie os vieses do modelo
- Avalie o impacto ambiental

Recursos

A seguir compartilhamos vários recursos para que vocês possam desenvolver projetos de grande qualidade. Os recursos marcados com ⭐ correspondem a palestras e workshops dados durante o hackathon e pensados especificamente para ajudar nesta edição.

📚 Dataset

A API da Cohere:

⭐ Workshop prático: Como usar a API da Cohere dado por Alejandro Rodriguez, Research Engineer na Cohere. Usem os modelos da Cohere para limpar e estender o dataset de vocês.

Criação de datasets:

⭐ Red Teaming para modelos de linguagem, dado por Luis Vasquez, da equipe de Reinforcement Learning, Alignment & Red Teaming do Barcelona Supercomputing Center.
⭐ MuSeD: Criação de um corpus multimodal em espanhol para a detecção de sexismo em vídeos de redes sociais, dado por Laura De Grazia da Universitat de Barcelona.
Como anotar corpora linguísticos para treinar LLMs, dado por Marta Guerrero @IIC, co criadora de 3 dos corpora que formam La Leaderboard.
Distilabel e Argilla, ferramentas para criar modelos como o Notus dado por Gabriel Martín, MLE @Argilla (notebook disponível).

Inspiração:

⭐ Describing and interpreting interaction using cultural scripts (palestra em inglês), dada por Lauren Sadow da Aarhus University.
⭐ Expressando incerteza em tarefas multilíngues, dada por Selene Báez, pesquisadora pós doutoral na University of Zurich.
Ética ambiental em IA: construindo narrativas sustentáveis em espanhol, palestra dada por Jorge Vallego, Project Lead @H4rmony. Pode servir para dar uma abordagem eco consciente ao dataset de vocês.

⚙️ Modelo

Criação do Space de treinamento:

Docs: JupyterLab em Spaces, onde vocês podem rodar os notebooks como sempre. ATENÇÃO para não perder o armazenamento ao reiniciar o Space, salvem os notebooks!

Alinhamento de LLMs:

⭐ Workshop prático: Alinhamento de LLMs usando Aprendizagem por Reforço dado por Luis Vasquez, da equipe de Reinforcement Learning, Alignment & Red Teaming do Barcelona Supercomputing Center.

Modelos multimodais:

⭐ Palestra: Como fazer um Modelo Visão Linguagem eficiente dada por Andrés Marafioti, ML Engineer na Hugging Face e criador do SmolVLM.
⭐ Palestra: Instruction Tuning para Raciocínio Sequencial Multimodal dada por Danae Sanchez, pesquisadora pós doutoral na Universidade de Copenhague.

Fine tuning de LLMs:

Workshop prático: O impacto da qualidade dos dados em um FT de LLMs, dado também por Manu Romero, criador de mais de 500 modelos do Hub do Hugging Face.
Workshop prático: Fine tuning de grandes modelos de linguagem dado por Manu Romero, criador de mais de 500 modelos do Hub do Hugging Face.
Workshop + AMA sobre treinamento de LLMs com Alejandro Vaca, fundador da LenguajeNaturalAI.
Notebooks de unsloth para treinar mais rápido (em inglês, se precisarem que a gente traduza, avisem): Gemma FT em dataset de instruções estilo Alpaca e Fazer RLAIF via DPO sobre Zephyr.

Impacto climático:

Para avaliar a pegada de carbono do treinamento do seu modelo, você pode usar ferramentas como o Code Carbon (melhor, integrado em 🤗 Transformers) ou o ML CO2 Impact.
Recomendamos este vídeo de motivação, este artigo do blog da HF e a seção da documentação de 🤗 Transformers que aborda este tema.

📝 Documentação

Docs: como escrever uma boa Dataset Card: é a documentação oficial do Hugging Face, inclui um template e alguns bons exemplos.
Docs: como escrever uma Model Card: guia oficial do Hugging Face, inclui um link para o Space para criar automaticamente e uma explicação de cada seção.
Space: Model Card Creator, Space que guia vocês na criação da model card de vocês.
Detecção e mitigação de vieses em modelos de linguagem, palestra dada por María Grandury, fundadora da SomosNLP.

Voltar aos desafios