Desafios #HackathonSomosNLP 2025

Vamos possibilitar a criação de LLMs alinhados com a cultura da LATAM e da Península Ibérica.


O hackathon deste ano está focado na criação de recursos que permitam a avaliação e o alinhamento de modelos de linguagem com a cultura dos países da América Latina e da Península Ibérica. O hackathon foi prorrogado até 31 DE MAIO.

O hackathon consiste em um desafio principal e vários mini desafios com os quais você também pode acumular pontos para os prêmios finais e ganhar prêmios extras. A pontuação máxima total é de 10 pontos.

Antes de começar, todas as pessoas precisam:

Para criar uma equipe:

  • Você pode se inscrever com pessoas que já conhece (por exemplo, seu grupo de classe ou trabalho) ou conhecer pessoas da comunidade SomosNLP de outros países, universidades e empresas. Se quiser conhecer pessoas, confira o canal #encuentra-equipo
  • Depois de criar a equipe, UMA pessoa deve registrar a equipe

👏 Incentivos e prêmios

Ao participar, você terá a oportunidade de:

  • ✨ Aprender com workshops e palestras ao vivo
  • ✨ Obter acesso aos 500 USD da API da Cohere
  • ✨ Obter acesso a GPUs L40S da Hugging Face
  • ✨ Ganhar 1000 USD em créditos da API da Mistral
  • ✨ Ganhar centenas de USD em créditos GPU e livros de IA e linguagem
  • ✨ Ganhar acesso a um Mestrado online em IA
  • ✨ Ganhar uma entrada para a conferência online da WomenTech Network
  • ✨ Ganhar uma indicação para a rede de talentos Nova
  • ✨ Ganhar mentorias com pessoas relevantes na área de NLP
  • ✨ Co-publicar papers em conferências internacionais de NLP
  • ✨ Obter um certificado de participação (ou equipe vencedora) do hackathon

Vamos nessa! 🚀

✨ Mini desafios

Participe destes mini desafios para contribuir com a criação de bancos de dados que avaliem o conhecimento cultural e estereótipos dos LLMs. Você poderá acumular pontos e ganhar prêmios extras!

🔥 Desafio Principal

  1. Gere um dataset de preferências
  2. Alinhe um modelo textual (opção A) ou multimodal (opção B), à sua escolha
  3. Crie uma demo do seu projeto
  4. Apresente seu projeto em um vídeo de 5 mins
  5. (Opcional) escreva um paper apresentando seu projeto

❓ Ajuda

Se você tiver alguma dúvida:

  • Verifique o canal #anuncios, recomendamos ativar as notificações do canal, publicamos no máximo 1 vez por dia
  • Faça suas perguntas no canal #pedir-ajuda do Discord para que todos possam se beneficiar da resposta
  • Os eventos são anunciados no canal #eventos e adicionados ao Google Calendar
  • Você pode nos dar feedback para melhorar os guias dos desafios com este formulário (anônimo)

🗓️ Eventos

Automatizando extração de corpus de PDFs | Alfonso Amayuelas, PhD @ Universidade da Califórnia, Santa Barbara

Como usar as últimas ferramentas em LLMs para criar datasets de QA? Neste evento, usaremos um modelo de OCR e LLMs para padronizar exames, questionários, etc.

Gravação já disponível!

alt text

Confidently wrong: expressando incerteza em tarefas multilíngues | Selene Baez, Postdoc @ Universidade de Zurique

Embora a fluência e a coerência dos Modelos de Linguagem (LLM) na geração de texto tenham melhorado significativamente, sua capacidade de gerar expressões adequadas de incerteza ainda é limitada. Por meio de uma tarefa de Q&A multilíngue de livro fechado e GPT-3.5, exploramos a precisão com que os LLMs se calibram e expressam certeza em uma variedade de idiomas, incluindo ambientes com poucos recursos.

Gravação disponível!

alt text

Red Teaming para Modelos de Linguagem | Luis Vasquez, Research Engineer @Barcelona Supercomputing Center

Breve introdução ao Red Teaming para Modelos de Linguagem: definição, estratégias comuns e recursos.

Gravação disponível!

alt text