FineWeb2

Únete a la iniciativa de crear un gran corpus multilingüe de alta calidad

María Grandury· 10 dic 2024· 2min

TL;DR: Anota de 1 a 5 la calidad educativa de textos en tu idioma aquí:FineWeb2

FineWeb Multilingüe

Cómo apoyar la iniciativa

  • 🔥 Participa en la anotación: Puntúa de 1 a 5 la calidad educativa de cada texto y contribuye a la creación de un gran corpus multilingüe de alta calidad.
    1. Crea una cuenta en Hugging Face (si aún no tienes): Regístrate para obtener una cuenta gratuita enhttps://huggingface.co/join.
    2. Visita elespacio de anotación(inicia sesión con tu cuenta de Hugging Face).
    3. Explora los conjuntos de datos disponibles y selecciona el idioma que te gustaría anotar.
    4. Lee cuidadosamente la guía de anotación antes de empezar, dado que así se asegura la consistencia en todas las contribuciones. La puedes encontrar en la esquina inferior izquierda de la interfaz de anotación.
    5. Comienza a anotar:
      • Califica la calidad educativa de cada texto.
      • Utiliza los filtros y acciones masivas de Argilla para trabajar de manera eficiente.
      • Busca patrones para acelerar tu flujo de trabajo.
  • 🚀 Conviértete enLanguage Lead: Comoleaddesempeñarás un papel crucial en el mantenimiento de la comunidad y los esfuerzos de anotación para el(los) idioma(s) que lideres.

    1. Revisa si tu lengua está representadaaquí
    2. Si no lo está, ofrece tu ayuda rellenando esteformulario.
    3. Si lo está, puedes ofrecer tu ayuda en el canal de chat correspondiente y compartir la iniciativa en redes sociales.
  • 🌟 Comparte la iniciativa: Ayuda a que más personas de tu comunidad se enteren de la iniciativa.

    1. Echa un ojo alkit de comunicacionesque el equipo de Hugging Face ha preparado, incluye ideas para publicaciones en redes sociales e imágenes.
    2. Siéntete libre de traducir y personalizar el contenido como veas necesario.
    3. ¡Compártelo en redes sociales! Puedes mencionar al Language Lead de tu lengua y/o a la comunidad de SomosNLP (en lo que a mí respecta, compartiré todas las publicaciones que me lleguen de cualquiera de las lenguas de LATAM y España).

Información y ayuda

Estamos a tu disposición a través del chat de la iniciativa: 1. Únete al chat de la iniciativa, donde compartiremos actualizaciones y resolveremos dudas. Puedes unirte utilizando tu cuenta de Hugging Face aquí:Rocket Chat. 2. Únete al canal de las lenguas que hablas y saluda 👋 3. Menciona a tu Language Lead para preguntar cualquier duda.

Tanto el equipo de Hugging Face como losLanguage Leadsestamos a tu disposición para cualquier duda o sugerencia.

Además, también puedes contactar con nosotros en elDiscord de SomosNLP.

Language Leads

Cada lengua tiene unLanguage Leadque es responsable de la recopilación de datos de su lengua y la coordinación con el equipo de Hugging Face.

🌈 A continuación, te presentamos losLanguage Leadsde las lenguas de España y LATAM y sus correspondientes afiliaciones:

👀 Buscamos todavíaleadspara las siguientes lenguas:

  • Aragonés
  • Extremeño
  • Romaní
  • Chavacano

De momento me encargo yo pero lo ideal sería contar con una persona que hable el idioma y tenga contacto directo con la comunidad, ¿te animas?

¡Únete a este esfuerzo colaborativo!

Únete a este esfuerzo colaborativo para contribuir a la creación de un corpus multilingüe de alta calidad que incluya tu lengua e impulse el desarrollo de modelos de lenguaje inclusivos 💛