Procure exames de múltipla escolha do seu país para avaliar o conhecimento dos LLMs. Priorize exames em idiomas diferentes do espanhol e/ou focados em temas culturais (por exemplo, história, literatura). Usaremos essas perguntas e respostas para estender o benchmark aberto INCLUDE.
9 de abril - 31 de maio (PRORROGADO) | máx 1 ponto
🌎 Você pode contribuir com exames de todos os países, independentemente do seu local de origem ou residência. Confira a aba “Prioridad países” na planilha.
✨ Incentivos (os números se referem a perguntas com suas respectivas respostas):
- Por equipe:
- 100 perguntas no total = 0,5 pontos
- 200 perguntas no total = 1 ponto
- Por pessoa:
- Cada 100 perguntas = 50 USD em créditos GPU ou livros (à sua escolha)
- 300 por pessoa = convite para o Slack do projeto global e coautoria no paper do INCLUDE v2 liderado pela EPFL
- ATENÇÃO: Os exames devem cumprir os requisitos!
Recursos:
- Workshop de Alfonso Amayuelas
- Repositório GitHub com o código do workshop:amayuelas/corpus-automation
- Canal do Discord#examenes-include
Protocolo de coleta de exames multilíngues
A seguir, apresentamos o protocolo para participar do projeto INCLUDE focado na coleta de exames multilíngues.
1. Buscar exames
Verifique se o exame atende aos seguintes requisitos:
- Não é proprietário.Se a licença restringe o uso comercial mas permite sua redistribuição para fins de pesquisa, então podemos usar este exame. Se a licença for desconhecida, inclua o exame.
- É um exame com formato de perguntas de múltipla escolhae tem 4 opções por pergunta.
- Contém as respostase há apenas uma resposta correta por pergunta.
- O tema do exame deve estar relacionado àculturade um país (por exemplo, história, literatura) ou ser informação regional (por exemplo, carteira de motorista). Não são válidos os exames de ciências exatas ou naturais (por exemplo, matemática, física).
- Priorize buscar exames emlínguasoriginárias da Brasil
Ideias para encontrar exames:
- Exames de idiomas
- Exames de nacionalização
- Carteiras de motorista
- Exames de acesso à universidade ou da universidade
- Exames do ensino fundamental ou médio
- Exames habilitantes de profissões (direito, medicina, psicologia, etc.)
- Perguntas de programas estilo “Quem quer ser um milionário?”
- Perguntas de jogos tipo Trivial Pursuit
- Testes de autoavaliação em livros didáticos
Lembre-se: não precisa ser um exame digitalizado, você também pode digitalizar livros ou tirar fotos de documentos.
2. Adicionar exames à planilha
Quando encontrar um exame, guarde sua URL/nome/artigo/documentação de origem e adicione-o àplanilha.
Inclua o seguinte:
- Seu nome
- Seu nome no Discord
- Nome do exame (o mais detalhado possível)
- Língua e país de origem do exame
- Domínio do exame (por exemplo, Literatura, Direito, Direção, etc.)
- Nível do exame
- Número de perguntas
- Origem do exame (URL se disponível online, nome do livro ou URL do documento PDF no seu Drive, etc.)
- Formato original (por exemplo, PDF, página web, livro didático, etc.)
3. Processar os exames
Depois de encontrar um exame:
- Extraia as perguntas e respostas e crie um arquivo final em formatoJSON(exemplo a seguir).
- Recomendamos oworkshop de Alfonso Amayuelas
- Repositório GitHub com o código do workshop:amayuelas/corpus-automation
- Faça upload do arquivo final para um datasetPRIVADOemhuggingface.co/somosnlp-hackathon-2025com o nome do exame. Se você não faz parte da organização, junte-se com esteconvite.
- No canal do Discord#examenes-include, mencione @mariagrandury e compartilhe o link para o dataset criado.
- Verificaremos o conteúdo e informaremos se alguma alteração for necessária.
Exemplo JSON no formato esperado:
{
"language": "pt",
"country": "Brasil",
"exam_name": "Exame Final de História do Ensino Médio 2017",
"source": "https://url-do-exame",
"license": "CC-BY-SA",
"level": "Acesso à Universidade",
"category_en": "History",
"category_original_lang": "História",
"original_question_num": 1,
"question": "Em qual dos seguintes anos começou a Proclamação da República?",
"options": [ "1889", "1890", "1891", "1892" ],
"answer": 0
}
Equipe
Muito obrigado a:
- EPFL: Prêmios e organização da equipe global
- A equipe: María Grandury e Angelika Romanou