Desafio Principal #HackathonSomosNLP 2026: Alinhamento de LLMs e VLLMs

Como participar deste desafio e ajudar a melhorar o conhecimento cultural dos modelos de linguagem e visão linguagem


🎯 Objetivo do desafio

  • Escolha uma das opções a seguir:
    • A. Alinhe um modelo de linguagem (LLM) para gerar texto de forma culturalmente adequada
    • B. Adapte um modelo multimodal visão linguagem (VLLM) para gerar descrições de imagens levando em conta o contexto cultural
  • Em espanhol, português ou qualquer língua da Península Ibérica ou da América Latina
  • Adapte um modelo já existente (não pré treine um do zero). Recomendamos partir de modelos em torno de 7B (e.g. Salamandra, Mistral e Gemma)
  • Gere o dataset com a ajuda de 500 USD em créditos da API da Cohere! Recomendamos filtrar e estender o dataset de preferências v0 gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
  • Treine seu modelo diretamente em JupyterLab no hub do Hugging Face. Temos GPUs patrocinadas pela 🤗!
  • Faça upload do(s) modelo(s) junto com todos os notebooks utilizados para hf.co/somosnlp-hackathon-2026
  • Escreva a Model Card. Inclua links para o dataset e para os notebooks utilizados (e.g. pré processamento, treinamento)

Guia

✅ Preparação

Requisitos por equipe
  1. Contribuir com 100 prompts de qualidade ao dataset de preferências
  2. Responder 200 perguntas do dataset de avaliação (BLEND)
  3. Pedir os 500 USD em créditos da API da Cohere (depois de completar os pontos 1 e 2, mencione @mariagrandury no canal da equipe de vocês para receber instruções)
  4. Criar na organização hf.co/somosnlp-hackathon-2026 um Space com o template de jupyterlab
  5. Preencher o formulário de registro

📚 Dataset

Os dados são o mais importante no desenvolvimento de um modelo, e também vamos dar mais peso a eles na hora de avaliar os projetos 👀

  • Gere um dataset para o seu projeto:
    • Use como versão inicial do seu dataset o que foi gerado em conjunto na Arena: somosnlp-hackathon-2025/dataset-preferencias-dpo-v0
    • Aproveite os 500 USD em créditos da API da Cohere que cada equipe tem para filtrar, melhorar e estender com mais prompts e respostas pensados especificamente para o seu caso de uso
    • Lembre que, tratando se de temas culturais, é muito importante que tudo o que for gerado sinteticamente seja revisado por uma pessoa (vocês podem usar Argilla)
  • Faça upload do dataset para hf.co/somosnlp-hackathon-2026 e itere
  • Faça upload para o repo do dataset de todos os notebooks e scripts usados para gerar e processar o dataset
    • Se preferir criar um repo no GitHub com todo o código, pode fazer isso. Só não esqueça de incluir um link na Dataset Card
  • Preencha bem a Dataset Card
    • “Dataset Card” é o nome da documentação dos datasets do Hugging Face. É o README.md do repositório dos datasets
    • ATENÇÃO: É levado em conta na avaliação do projeto
    • Inclua na introdução a motivação do projeto e o seu impacto
    • Detalhe o processo de geração e processamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
    • Especifique a licença: de preferência apache-2.0. Se não, explique por quê
    • Avalie os vieses do dataset, se está balanceado, que variedades da língua ou opiniões representa, etc.

Como nomear os datasets:

  • O nome do dataset com os (mínimo 100) prompts que vocês enviaram para a LLM Arena precisa conter prompt. Por exemplo: normas_culturales_colombia_prompts
  • O nome dos datasets de preferências precisa conter o nome do algoritmo principal para o qual podem ser usados (dpo ou kto). Por exemplo: normas_culturales_colombia_dpo
  • Se o dataset for multimodal, precisa conter image. Por exemplo: utensilios_ecuador_images_kto

⚙️ Modelo

  1. Crie na organização hf.co/somosnlp-hackathon-2026 um Space com o template de JupyterLab
  2. A equipe da Hugging Face vai atribuir um grant de uma L40S ao Space
    • Configure o tempo de “auto sleep” para 5 minutos para garantir um uso responsável 🌱
  3. Desenhe o notebook de treinamento
    • Salve o modelo resultante diretamente em hf.co/somosnlp-hackathon-2026
    • Use a biblioteca CodeCarbon para avaliar o impacto climático
  4. Faça testes com modelos pequenos e subconjuntos do dataset para verificar que o código está correto e não encontrar bugs depois de várias horas de treinamento.
  5. Lance o treinamento, revise os resultados e itere
    • Você pode experimentar e.g. diferentes algoritmos ou modelos base
    • Não precisa criar um repo diferente para cada modelo. Se você fizer push para o mesmo repo, o modelo atualizado fica salvo como um novo commit (ao qual você pode linkar a partir da Model Card se quiser)
  6. Baixe os notebooks de processamento do dataset e de treinamento do modelo, faça upload deles para o repo do modelo (MUITO IMPORTANTE) e elimine o Space de JupyterLab
  7. Preencha bem a Model Card
    • “Model Card” é o nome da documentação dos modelos do Hugging Face. É o README.md do repositório dos modelos
    • ATENÇÃO: É levado em conta na avaliação do projeto
    • Recomendação: vá descrevendo os testes à medida que faz, assim como o processo de melhoria do dataset e de treinamento do modelo
    • Inclua na introdução a motivação do projeto e o seu impacto
    • Detalhe o processo de treinamento, inclua as bibliotecas usadas e mencione os testes feitos, inclua os links para o código
    • Especifique a licença: de preferência apache-2.0. Se não, explique por quê
    • Avalie os vieses do modelo
    • Avalie o impacto ambiental

Recursos

A seguir compartilhamos vários recursos para que vocês possam desenvolver projetos de grande qualidade. Os recursos marcados com ⭐ correspondem a palestras e workshops dados durante o hackathon e pensados especificamente para ajudar nesta edição.

📚 Dataset

A API da Cohere:

Criação de datasets:

Inspiração:

⚙️ Modelo

Criação do Space de treinamento:

  • Docs: JupyterLab em Spaces, onde vocês podem rodar os notebooks como sempre. ATENÇÃO para não perder o armazenamento ao reiniciar o Space, salvem os notebooks!

Alinhamento de LLMs:

Modelos multimodais:

Fine tuning de LLMs:

Impacto climático:

  • Para avaliar a pegada de carbono do treinamento do seu modelo, você pode usar ferramentas como o Code Carbon (melhor, integrado em 🤗 Transformers) ou o ML CO2 Impact.
  • Recomendamos este vídeo de motivação, este artigo do blog da HF e a seção da documentação de 🤗 Transformers que aborda este tema.

📝 Documentação

Voltar aos desafios