Dona tu corpus

Vamos a estandarizar el proceso de evaluación de LLMs en nuestras lenguas y necesitamos tu ayuda


La iniciativa #Somos600M tiene dos objetivos ambiciosos:

  1. 🌎 Crear un corpus de instrucciones de calidad y diverso, que represente una amplia variedad de países, registros y temáticas.
  2. ✅ Crear una leaderboard pública de LLMs que nos permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales.

Tanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!

¿Cómo puedo colaborar?
  • Si no sabes lo que es un “corpus” pero tienes grandes cantidades de documentos que te gustaría publicar para que los sistemas de IA se expresen mejor en tu idioma y funcionen mejor para tus tareas del día a día,¡contáctanos!
  • Si tienes un conjunto de documentos que te gustaría utilizar para extraer información o automatizar tus tareas diarias,¡apúntate al hackathon!
  • Si tienes un corpus de entrenamiento que te gustaría donar para que la siguiente generación de LLMs en tu idioma funcione mejor para tus casos de uso, ¡sigue leyendo!
  • Si tienes un corpus de evaluación creado por especialistas y quieres participar en la creación de la primera leaderboard pública de LLMs en español, ¡sigue leyendo!

Solo necesitamos que nos compartas la información del corpus, ¡nos encargamos de todo el resto!

Para cualquier duda mándanos un correo ainfo@somosnlp.orgo contáctanos por Discord, ¡te estamos esperando!

💡 Motivación y preguntas frecuentes

Entendemos que los corpus son muuuy preciados. ¿Por qué donarlos?

Corpus de entrenamiento

Tu contribución es clave para la creación de un corpus de instrucciones público, diverso y de calidad, que servirá como referente en el campo.

  1. Los LLMs open-source que entrene la comunidad obtendrán mejores resultados en tus casos de uso. ¡El modelo de partida sobre el que hacer tus adaptaciones será de mayor calidad!

  2. Al donar un corpus, se incluirá su cita correspondiente en la tabla y tu organización se convertirá en patrocinadora del Hackathon #Somos600M, ¡lee a continuación todos los beneficios que esto conlleva!

Corpus de evaluación

Tu contribución es clave para la creación de una leaderboard pública y unificada, que servirá como referente en el campo.

  1. Al donar, tienes la oportunidad única de moldear el futuro de la evaluación de los LLMs en español y lenguas cooficiales, estableciendo nuevos estándares de calidad y rendimiento.

  2. Te permitirá mostrar a toda la comunidad cómo se comparan vuestros modelos con el mercado con una mayor fiabilidad, dado que los resultados serán publicados por una entidad imparcial.

  3. Al optar por donar solo la parte de evaluación, mantienes tu ventaja competitiva con la parte de entrenamiento en privado. Publicar en la leaderboard tus resultados no implica que la comunidad tenga acceso a tus modelos.

  4. Al donar un corpus, se incluirá su cita correspondiente en la cita de la leaderboard y tu organización se convertirá en patrocinadora del Hackathon #Somos600M, ¡lee a continuación todos los beneficios que esto conlleva!

Tu donación no solo contribuye al avance científico, sino que también fortalece tu posición como líder en la innovación del Procesamiento del Lenguaje Natural en tu lengua 💪

📸 Visibilidad para patrocinios de corpus

Crearemos una tabla pública con todos los corpus donados que incluirá, además de información básica del corpus, la institución que lo creó, cómo citarlo y un enlace a vuestra documentación donde podéis incluir toda la información adicional que queráis.

Corpus de entrenamiento

Animaremos a los equipos participantes en el hackathon a utilizar tu corpus en sus proyectos, lo que le dará visibilidad y favorecerá que se utilice en proyectos con impacto social 💛

Corpus de evaluación

Al igual que en laOpen LLM Leaderboard, se incluirá la cita de tu corpus en la cita de la leaderboard. Además, se citará el corpus en el artículo que publiquemos describiendo el proceso de creación de la leaderboard 📝

Visibilidad extra para todos los corpus
  • Logo en la página web del hackathon y la de registro: tamaño L
  • Logo en la página “Comunidad”: primera categoría
  • Agradecimiento en la sección “Comunidad” a las personas que crearon el corpus
  • Agradecimiento en RRSS: a la entidad y en particular a las personas que crearon el corpus
  • Etiquetas en posts: mínimo 10
  • Artículo de blog promocional sobre la creación del corpus
  • Charla promocional (max 45’) sobre la creación del corpus
  • Vídeo promocional (3’) sobre la empresa o grupo de investigación
  • Mención en un artículo describiendo los patrocinios del hackathon
  • Mención en directo en la inauguración y clausura del hackathon

Todos los beneficios son opcionales, elige los que más te gusten. Si tienes otras propuestas será un placer escucharlas.

✅ Requisitos de los corpus

Son bienvenidos corpus de todas las tareas tanto de comprensión (NLU) como de generación de texto (NLG), así como corpus de instrucciones de todo tipo. También se aceptan corpus de todas las modalidades (texto, audio e imágenes con descripción).

  • Deben ser corpus de calidad elaborados por especialistas.Si se trata de un corpus relacionado con la salud, es indispensable la participación de personas con formación sanitaria en la creación del mismo.
  • Damos prioridad a los corpus originalmente creados en la lengua correspondiente (vs. a traducciones). Igualmente, se aceptan traducciones si se asegura un proceso de validación posterior.
  • Respecto a corpus de evaluación, dado que serán utilizados para evaluar y comparar modelos, se debe proveer una manera clara y poco variable de evaluación con el corpus correspondiente.

🙌 Agradecimientos

Campaña de recolección de corpus organizada con el apoyo de:

Instituto de Ingeniería del Conocimiento

Sociedad Española para el Procesamiento del Lenguaje Natural

LenguajeNatural.AI

Colección de corpus donados:

Colección de corpus donados