O hackathon deste ano está focado na criação de recursos que permitam a avaliação e o alinhamento de modelos de linguagem com a cultura dos países da América Latina e da Península Ibérica. O hackathon foi prorrogado até 31 DE MAIO.
O hackathon consiste em um desafio principal e vários mini desafios com os quais você também pode acumular pontos para os prêmios finais e ganhar prêmios extras. A pontuação máxima total é de 10 pontos.
Antes de começar, todas as pessoas precisam:
- ✅ Juntar-se ao servidor Discord da SomosNLP
- ✅ Criar uma conta no Hugging Face
- ✅ Preencher o formulário de inscrição
- ✅ Juntar-se à organização Hugging Face do hackathon, onde datasets, modelos e demos serão compartilhados
Para criar uma equipe:
- Você pode se inscrever com pessoas que já conhece (por exemplo, seu grupo de classe ou trabalho) ou conhecer pessoas da comunidade SomosNLP de outros países, universidades e empresas. Se quiser conhecer pessoas, confira o canal #encuentra-equipo
- Depois de criar a equipe, UMA pessoa deve registrar a equipe
👏 Incentivos e prêmios
Ao participar, você terá a oportunidade de:
- ✨ Aprender com workshops e palestras ao vivo
- ✨ Obter acesso aos 500 USD da API da Cohere
- ✨ Obter acesso a GPUs L40S da Hugging Face
- ✨ Ganhar 1000 USD em créditos da API da Mistral
- ✨ Ganhar centenas de USD em créditos GPU e livros de IA e linguagem
- ✨ Ganhar acesso a um Mestrado online em IA
- ✨ Ganhar uma entrada para a conferência online da WomenTech Network
- ✨ Ganhar uma indicação para a rede de talentos Nova
- ✨ Ganhar mentorias com pessoas relevantes na área de NLP
- ✨ Co-publicar papers em conferências internacionais de NLP
- ✨ Obter um certificado de participação (ou equipe vencedora) do hackathon
Vamos nessa! 🚀
✨ Mini desafios
Participe destes mini desafios para contribuir com a criação de bancos de dados que avaliem o conhecimento cultural e estereótipos dos LLMs. Você poderá acumular pontos e ganhar prêmios extras!
🔥 Desafio Principal
- Gere um dataset de preferências
- Alinhe um modelo textual (opção A) ou multimodal (opção B), à sua escolha
- Crie uma demo do seu projeto
- Apresente seu projeto em um vídeo de 5 mins
- (Opcional) escreva um paper apresentando seu projeto
❓ Ajuda
Se você tiver alguma dúvida:
- Verifique o canal #anuncios, recomendamos ativar as notificações do canal, publicamos no máximo 1 vez por dia
- Faça suas perguntas no canal #pedir-ajuda do Discord para que todos possam se beneficiar da resposta
- Os eventos são anunciados no canal #eventos e adicionados ao Google Calendar
- Você pode nos dar feedback para melhorar os guias dos desafios com este formulário (anônimo)
🗓️ Eventos
Automatizando extração de corpus de PDFs | Alfonso Amayuelas, PhD @ Universidade da Califórnia, Santa Barbara
Como usar as últimas ferramentas em LLMs para criar datasets de QA? Neste evento, usaremos um modelo de OCR e LLMs para padronizar exames, questionários, etc.
Confidently wrong: expressando incerteza em tarefas multilíngues | Selene Baez, Postdoc @ Universidade de Zurique
Embora a fluência e a coerência dos Modelos de Linguagem (LLM) na geração de texto tenham melhorado significativamente, sua capacidade de gerar expressões adequadas de incerteza ainda é limitada. Por meio de uma tarefa de Q&A multilíngue de livro fechado e GPT-3.5, exploramos a precisão com que os LLMs se calibram e expressam certeza em uma variedade de idiomas, incluindo ambientes com poucos recursos.
Red Teaming para Modelos de Linguagem | Luis Vasquez, Research Engineer @Barcelona Supercomputing Center
Breve introdução ao Red Teaming para Modelos de Linguagem: definição, estratégias comuns e recursos.