Bases del Hackathon

Todo lo que necesitas saber para presentar un buen proyecto al hackathon


Cartel del Hackathon 2023

El objetivo del hackathon es crear recursos abiertos de PLN en español, a poder ser aprovechando el potencial de los grandes modelos del lenguaje para desarrollar un proyecto enfocado a alguno de los Objetivos de Desarrollo Sostenible.

Cada proyecto estará compuesto por un dataset, un modelo y una demo. Todo el proyecto deberá ser liberado.

Pasos para participar

Participar en nuestro hackathon y aplicar tus conocimientos a una buena causa es muy sencillo, ¡anímate!

  1. Únete a nuestra comunidad deDiscordy crea una cuenta enHugging Face.

  2. Regístrate enEventbrite.

  3. Únete a la organizaciónhackathon-somos-nlp-2023del Hub de Hugging Face. Tienes que liberar en esta organización todos los datasets, modelos y demos. Te recomendamos que los crees directamente aquí para que aparezcan lo antes posible en laleaderboard.

  4. Define tu proyecto y reúne tu equipo (de 1 a 5 personas). Hay que inscribir los equipos en el canal#equipos-hackathon(más info en el canal).

  5. Crea tu dataset en la org del hackathon, te animamos a crear un dataset específicamente para el proyecto aunque también puedes reutilizar o mejorar uno ya existente.

  6. Escribe la Dataset Card de tu dataset: inspecciona el dataset y evalúa sesgos.

  7. Fine-tuning de un LLM para la tarea que hayas elegido ypush to hub. Pondremos a vuestra disposición GPU VMs 24GB, avísanos cuando tengas el dataset y esté todo listo para empezar el entrenamiento.

  8. Escribe la Model Card de tu modelo: evalúa su calidad, sesgos y huella de carbono.

  9. Crea una demo para mostrar tu proyecto a la comunidad. Puedes utilizar GPUs Nvidia T4 - small.

  10. Entrega tu proyectorellenando este formulario. Puedes seguir haciendo modificaciones hasta las 23h59Anywhere on Earthdel domingo 9 de abril (revisaremos la hora de los commits 👀).

Guía y recursos para desarrollar un buen proyecto

Define tu proyecto teniendo en cuenta que valoraremos el impacto social del mismo, que hay una mención de honor al mejor dataset etiquetado y otra al proyecto con más posibilidades de llegar al mercado.

Dataset

  • En español o multilingüe.
  • Te animamos a crear un dataset específicamente para tu proyecto aunque también puedes mejorar alguno ya existente o utilizarlo directamente (ojo a las licencias).
  • Si te animas a etiquetar un dataset te recomendamos utilizar Argilla. El equipo ganador de la mención de honor al mejor dataset etiquetado obtendrá 200€ de crédito de computación en el hub de Hugging Face 🏆(Taller disponible)
  • Si quieres sumarte al reto colaborativo de limpiar, validar y extender nuestra traducción deClean Alpaca, está todo explicado en la Dataset card desomos-clean-alpaca-es. Si tienes dudas pregúntanos en el canal#alpaca-es.(Vídeo explicativo disponible)
  • Cumplimenta bien la Dataset Card, tendremos en cuenta a la hora de evaluar los proyectos si está completa e incluye temas como una evaluación de los sesgos del dataset.

Recursos:

Modelo

  • En español o multilingüe.
  • Haz fine-tuning de un modelo ya existente (no pre-entrenes uno desde cero). En esta edición te animamos a que ajuste un gran modelo del lenguaje (LLM).(Taller disponible)
  • Desde el lunes 3 al domingo 9 tendréis a vuestra disposición GPU VMs 24GB patrocinadas por Q Blocks para entrenar vuestro modelo final.(Taller disponible)
  • Herramientas HF: Ahora se pueden ejecutar notebooks en el hub de HF. Si quieres, también puedes utilizar la herramienta experimental de HF fuego para entrenar tu modelo directamente desde Spaces.
  • Evalúa tu modelo y haz públicos los resultados. Puedes utilizar la herramienta evaluate de HF o un script, ten en cuenta que tendrás que liberarlo.
  • Cumplimenta bien la Model Card, a la hora de evaluar los proyectos daremos un punto extra si está completa y se incluyen temas como la evaluación de los sesgos del modelo y del impacto desde el punto de vista climático.
  • Para tener más posibilidades de ganar una beca para el programa de incubación patrocinado por AgilMentor, puede incluir tu canvas de modelo de negocio,Lucas te explica cómo.

Recursos:

Demo

  • Por último, crea una demo de tu modelo en el hub de HF. Si es tu primera demo, te recomendamos utilizar Gradio ya que es más sencillo.
  • Puedes utilizar GPUs Nvidia T4 - small patrocinadas por Hugging Face.
  • Qué incluir en la demo: motivación, número de ODS si procede, enlace al dataset y modelo utilizados, miembros del equipo

Recursos:

Visibilidad

  • Te recomendamos que subas tus datasets, modelos y demos desde el principio a la orghackathon-somos-nlp-2023para que aparezcan en laleaderboardy todo el mundo pueda verlo y darle likes. Habrá una mención de honor al proyecto con más ❤️
  • Puedes compartir tu proyecto en el canal #nuestros-proyectos.
  • Si quieres compartir tu proyecto en redes utiliza el hashtag #HackathonSomosNLP y menciona a SomosNLP para que le demos más visibilidad.

FAQ

Inscribir un equipo

Todos los equipos tienen que inscribirse en el canal #equipos-hackathon. Una vez completo el equipo crearemos un canal en la sección HACKATHON-2023-EQUIPOS para que podáis organizaros y desarrollar vuestro proyecto.

Para ayudarte a definir tu proyecto, hemos propuesto algunas ideas en el primer mensaje del canal #equipos-hackathon. Si quieres ver ejemplos de proyectos, puedes echarle un vistazo a la organización del Hub de HF de la primera edición. También te animamos a ver los talleres en los queequipos ganadoresexplican cómo implementaron sus proyectos.

Liberar los proyectos

IMPORTANTE: Todo el proyecto debe ser liberado en la organizaciónhackathon-somos-nlp-2023, esto incluye el dataset, el modelo y la demo. Si no formas parte todavía haz click en “Request to join”.

Los scripts de creación/limpieza del dataset y de entrenamiento/evaluación del modelo también deben ser liberados. Puedes esperar al 31 de marzo para evitar problemas de plagio. Incluye un enlace en la Dataset Card o Model Card a los notebooks o scripts utilizados en cada caso. Si los has creado específicamente para el proyecto, súbelos al repo correspondiente.


Para más info sobre talleres, AMAs, keynotes, premios y patrocinios, visita lapágina del hackathon.