Bases del Hackathon

El objetivo del hackathon es crear recursos abiertos de PLN en español, a poder ser aprovechando el potencial de los grandes modelos del lenguaje para desarrollar un proyecto enfocado a alguno de los Objetivos de Desarrollo Sostenible.

Cada proyecto estará compuesto por un dataset, un modelo y una demo. Todo el proyecto deberá ser liberado.

Pasos para participar

Participar en nuestro hackathon y aplicar tus conocimientos a una buena causa es muy sencillo, ¡anímate!

Únete a nuestra comunidad de Discord y crea una cuenta en Hugging Face.
Regístrate en Eventbrite.
Únete a la organización hackathon-somos-nlp-2023 del Hub de Hugging Face. Tienes que liberar en esta organización todos los datasets, modelos y demos. Te recomendamos que los crees directamente aquí para que aparezcan lo antes posible en la leaderboard.
Define tu proyecto y reúne tu equipo (de 1 a 5 personas). Hay que inscribir los equipos en el canal #equipos-hackathon (más info en el canal).
Crea tu dataset en la org del hackathon, te animamos a crear un dataset específicamente para el proyecto aunque también puedes reutilizar o mejorar uno ya existente.
Escribe la Dataset Card de tu dataset: inspecciona el dataset y evalúa sesgos.
Fine-tuning de un LLM para la tarea que hayas elegido y push to hub. Pondremos a vuestra disposición GPU VMs 24GB, avísanos cuando tengas el dataset y esté todo listo para empezar el entrenamiento.
Escribe la Model Card de tu modelo: evalúa su calidad, sesgos y huella de carbono.
Crea una demo para mostrar tu proyecto a la comunidad. Puedes utilizar GPUs Nvidia T4 - small.
Entrega tu proyecto rellenando este formulario. Puedes seguir haciendo modificaciones hasta las 23h59 Anywhere on Earth del domingo 9 de abril (revisaremos la hora de los commits 👀).

Guía y recursos para desarrollar un buen proyecto

Define tu proyecto teniendo en cuenta que valoraremos el impacto social del mismo, que hay una mención de honor al mejor dataset etiquetado y otra al proyecto con más posibilidades de llegar al mercado.

Dataset

En español o multilingüe.
Te animamos a crear un dataset específicamente para tu proyecto aunque también puedes mejorar alguno ya existente o utilizarlo directamente (ojo a las licencias).
Si te animas a etiquetar un dataset te recomendamos utilizar Argilla. El equipo ganador de la mención de honor al mejor dataset etiquetado obtendrá 200€ de crédito de computación en el hub de Hugging Face 🏆 (Taller disponible)
Si quieres sumarte al reto colaborativo de limpiar, validar y extender nuestra traducción de Clean Alpaca, está todo explicado en la Dataset card de somos-clean-alpaca-es. Si tienes dudas pregúntanos en el canal #alpaca-es. (Vídeo explicativo disponible)
Cumplimenta bien la Dataset Card, tendremos en cuenta a la hora de evaluar los proyectos si está completa e incluye temas como una evaluación de los sesgos del dataset.

Recursos:

Taller práctico: Etiquetado de datos con Argilla impartido por Daniel Vila Suero, co-fundador y CEO @Argilla. (Grabación ya disponible)
AMA de etiquetado de datos, pregunta todas tus dudas a Natalia Elvira, Project Manager @Argilla. (Grabación ya disponible)
Reto colaborativo Alpaca ES: Vídeo explicativo de Argilla (10 mins), Explicación en 7 pasos de Platzi

Modelo

En español o multilingüe.
Haz fine-tuning de un modelo ya existente (no pre-entrenes uno desde cero). En esta edición te animamos a que ajuste un gran modelo del lenguaje (LLM). (Taller disponible)
Desde el lunes 3 al domingo 9 tendréis a vuestra disposición GPU VMs 24GB patrocinadas por Q Blocks para entrenar vuestro modelo final. (Taller disponible)
Herramientas HF: Ahora se pueden ejecutar notebooks en el hub de HF. Si quieres, también puedes utilizar la herramienta experimental de HF fuego para entrenar tu modelo directamente desde Spaces.
Evalúa tu modelo y haz públicos los resultados. Puedes utilizar la herramienta evaluate de HF o un script, ten en cuenta que tendrás que liberarlo.
Cumplimenta bien la Model Card, a la hora de evaluar los proyectos daremos un punto extra si está completa y se incluyen temas como la evaluación de los sesgos del modelo y del impacto desde el punto de vista climático.
Para tener más posibilidades de ganar una beca para el programa de incubación patrocinado por AgilMentor, puede incluir tu canvas de modelo de negocio, Lucas te explica cómo.

Recursos:

Taller práctico: Fine-tuning de grandes modelos de lenguaje impartido por Manu Romero, el mayor contribuidor del Hub de Hugging Face. (Grabación ya disponible)
Taller: How to get started with Q Blocks impartido por Gaurav Vij, Head of Product & Co-founder de Q Blocks.
Detección y mitigación de sesgos en modelos de lenguaje impartido por María Grandury, ML Research Engineer en neurocat y fundadora de SomosNLP. (Grabación ya disponible)
Para evaluar la huella de carbono del entrenamiento de tu modelo puedes utilizar herramientas como ML CO2 Impact o Code Carbon, integrada en 🤗 Transformers. Te recomendamos este vídeo de motivación, este artículo del blog de HF y la sección de la documentación de 🤗 Transformers que trata este tema.

Demo

Por último, crea una demo de tu modelo en el hub de HF. Si es tu primera demo, te recomendamos utilizar Gradio ya que es más sencillo.
Puedes utilizar GPUs Nvidia T4 - small patrocinadas por Hugging Face.
Qué incluir en la demo: motivación, número de ODS si procede, enlace al dataset y modelo utilizados, miembros del equipo

Recursos:

Notebook: Cómo crear una demo con Gradio
Vídeo tutoriales: Aquí tienes tutoriales para crear demos utilizando Gradio, Streamlit y Flask.

Visibilidad

Te recomendamos que subas tus datasets, modelos y demos desde el principio a la org hackathon-somos-nlp-2023 para que aparezcan en la leaderboard y todo el mundo pueda verlo y darle likes. Habrá una mención de honor al proyecto con más ❤️
Puedes compartir tu proyecto en el canal #nuestros-proyectos.
Si quieres compartir tu proyecto en redes utiliza el hashtag #HackathonSomosNLP y menciona a SomosNLP para que le demos más visibilidad.

FAQ

Inscribir un equipo

Todos los equipos tienen que inscribirse en el canal #equipos-hackathon. Una vez completo el equipo crearemos un canal en la sección HACKATHON-2023-EQUIPOS para que podáis organizaros y desarrollar vuestro proyecto.

Para ayudarte a definir tu proyecto, hemos propuesto algunas ideas en el primer mensaje del canal #equipos-hackathon. Si quieres ver ejemplos de proyectos, puedes echarle un vistazo a la organización del Hub de HF de la primera edición. También te animamos a ver los talleres en los que equipos ganadores explican cómo implementaron sus proyectos.

Liberar los proyectos

IMPORTANTE: Todo el proyecto debe ser liberado en la organización hackathon-somos-nlp-2023, esto incluye el dataset, el modelo y la demo. Si no formas parte todavía haz click en “Request to join”.

Los scripts de creación/limpieza del dataset y de entrenamiento/evaluación del modelo también deben ser liberados. Puedes esperar al 31 de marzo para evitar problemas de plagio. Incluye un enlace en la Dataset Card o Model Card a los notebooks o scripts utilizados en cada caso. Si los has creado específicamente para el proyecto, súbelos al repo correspondiente.

Para más info sobre talleres, AMAs, keynotes, premios y patrocinios, visita la página del hackathon.