El objetivo del hackathon es crear recursos abiertos de PLN en español, a poder ser aprovechando el potencial de los grandes modelos del lenguaje para desarrollar un proyecto enfocado a alguno de los Objetivos de Desarrollo Sostenible.
Cada proyecto estará compuesto por un dataset, un modelo y una demo. Todo el proyecto deberá ser liberado.
Pasos para participar
Participar en nuestro hackathon y aplicar tus conocimientos a una buena causa es muy sencillo, ¡anímate!
Únete a nuestra comunidad deDiscordy crea una cuenta enHugging Face.
Regístrate enEventbrite.
Únete a la organizaciónhackathon-somos-nlp-2023del Hub de Hugging Face. Tienes que liberar en esta organización todos los datasets, modelos y demos. Te recomendamos que los crees directamente aquí para que aparezcan lo antes posible en laleaderboard.
Define tu proyecto y reúne tu equipo (de 1 a 5 personas). Hay que inscribir los equipos en el canal#equipos-hackathon(más info en el canal).
Crea tu dataset en la org del hackathon, te animamos a crear un dataset específicamente para el proyecto aunque también puedes reutilizar o mejorar uno ya existente.
Escribe la Dataset Card de tu dataset: inspecciona el dataset y evalúa sesgos.
Fine-tuning de un LLM para la tarea que hayas elegido ypush to hub. Pondremos a vuestra disposición GPU VMs 24GB, avísanos cuando tengas el dataset y esté todo listo para empezar el entrenamiento.
Escribe la Model Card de tu modelo: evalúa su calidad, sesgos y huella de carbono.
Crea una demo para mostrar tu proyecto a la comunidad. Puedes utilizar GPUs Nvidia T4 - small.
Entrega tu proyectorellenando este formulario. Puedes seguir haciendo modificaciones hasta las 23h59Anywhere on Earthdel domingo 9 de abril (revisaremos la hora de los commits 👀).
Guía y recursos para desarrollar un buen proyecto
Define tu proyecto teniendo en cuenta que valoraremos el impacto social del mismo, que hay una mención de honor al mejor dataset etiquetado y otra al proyecto con más posibilidades de llegar al mercado.
Dataset
- En español o multilingüe.
- Te animamos a crear un dataset específicamente para tu proyecto aunque también puedes mejorar alguno ya existente o utilizarlo directamente (ojo a las licencias).
- Si te animas a etiquetar un dataset te recomendamos utilizar Argilla. El equipo ganador de la mención de honor al mejor dataset etiquetado obtendrá 200€ de crédito de computación en el hub de Hugging Face 🏆(Taller disponible)
- Si quieres sumarte al reto colaborativo de limpiar, validar y extender nuestra traducción deClean Alpaca, está todo explicado en la Dataset card desomos-clean-alpaca-es. Si tienes dudas pregúntanos en el canal#alpaca-es.(Vídeo explicativo disponible)
- Cumplimenta bien la Dataset Card, tendremos en cuenta a la hora de evaluar los proyectos si está completa e incluye temas como una evaluación de los sesgos del dataset.
Recursos:
- Taller práctico: Etiquetado de datos con Argillaimpartido por Daniel Vila Suero, co-fundador y CEO @Argilla.(Grabación ya disponible)
- AMA de etiquetado de datos, pregunta todas tus dudas a Natalia Elvira, Project Manager @Argilla.(Grabación ya disponible)
- Reto colaborativo Alpaca ES:Vídeo explicativo de Argilla (10 mins),Explicación en 7 pasos de Platzi
Modelo
- En español o multilingüe.
- Haz fine-tuning de un modelo ya existente (no pre-entrenes uno desde cero). En esta edición te animamos a que ajuste un gran modelo del lenguaje (LLM).(Taller disponible)
- Desde el lunes 3 al domingo 9 tendréis a vuestra disposición GPU VMs 24GB patrocinadas por Q Blocks para entrenar vuestro modelo final.(Taller disponible)
- Herramientas HF: Ahora se pueden ejecutar notebooks en el hub de HF. Si quieres, también puedes utilizar la herramienta experimental de HF fuego para entrenar tu modelo directamente desde Spaces.
- Evalúa tu modelo y haz públicos los resultados. Puedes utilizar la herramienta evaluate de HF o un script, ten en cuenta que tendrás que liberarlo.
- Cumplimenta bien la Model Card, a la hora de evaluar los proyectos daremos un punto extra si está completa y se incluyen temas como la evaluación de los sesgos del modelo y del impacto desde el punto de vista climático.
- Para tener más posibilidades de ganar una beca para el programa de incubación patrocinado por AgilMentor, puede incluir tu canvas de modelo de negocio,Lucas te explica cómo.
Recursos:
- Taller práctico: Fine-tuning de grandes modelos de lenguajeimpartido por Manu Romero, el mayor contribuidor del Hub de Hugging Face.(Grabación ya disponible)
- Taller: How to get started with Q Blocksimpartido por Gaurav Vij, Head of Product & Co-founder de Q Blocks.
- Detección y mitigación de sesgos en modelos de lenguajeimpartido por María Grandury, ML Research Engineer en neurocat y fundadora de SomosNLP.(Grabación ya disponible)
- Para evaluar la huella de carbono del entrenamiento de tu modelo puedes utilizar herramientas comoML CO2 ImpactoCode Carbon, integrada en 🤗 Transformers. Te recomendamos estevídeode motivación, esteartículodel blog de HF y la sección de ladocumentaciónde 🤗 Transformers que trata este tema.
Demo
- Por último, crea una demo de tu modelo en el hub de HF. Si es tu primera demo, te recomendamos utilizar Gradio ya que es más sencillo.
- Puedes utilizar GPUs Nvidia T4 - small patrocinadas por Hugging Face.
- Qué incluir en la demo: motivación, número de ODS si procede, enlace al dataset y modelo utilizados, miembros del equipo
Recursos:
- Notebook:Cómo crear una demo con Gradio
- Vídeo tutoriales:Aquítienes tutoriales para crear demos utilizando Gradio, Streamlit y Flask.
Visibilidad
- Te recomendamos que subas tus datasets, modelos y demos desde el principio a la orghackathon-somos-nlp-2023para que aparezcan en laleaderboardy todo el mundo pueda verlo y darle likes. Habrá una mención de honor al proyecto con más ❤️
- Puedes compartir tu proyecto en el canal #nuestros-proyectos.
- Si quieres compartir tu proyecto en redes utiliza el hashtag #HackathonSomosNLP y menciona a SomosNLP para que le demos más visibilidad.
FAQ
Inscribir un equipo
Todos los equipos tienen que inscribirse en el canal #equipos-hackathon. Una vez completo el equipo crearemos un canal en la sección HACKATHON-2023-EQUIPOS para que podáis organizaros y desarrollar vuestro proyecto.
Para ayudarte a definir tu proyecto, hemos propuesto algunas ideas en el primer mensaje del canal #equipos-hackathon. Si quieres ver ejemplos de proyectos, puedes echarle un vistazo a la organización del Hub de HF de la primera edición. También te animamos a ver los talleres en los queequipos ganadoresexplican cómo implementaron sus proyectos.
Liberar los proyectos
IMPORTANTE: Todo el proyecto debe ser liberado en la organizaciónhackathon-somos-nlp-2023, esto incluye el dataset, el modelo y la demo. Si no formas parte todavía haz click en “Request to join”.
Los scripts de creación/limpieza del dataset y de entrenamiento/evaluación del modelo también deben ser liberados. Puedes esperar al 31 de marzo para evitar problemas de plagio. Incluye un enlace en la Dataset Card o Model Card a los notebooks o scripts utilizados en cada caso. Si los has creado específicamente para el proyecto, súbelos al repo correspondiente.
Para más info sobre talleres, AMAs, keynotes, premios y patrocinios, visita lapágina del hackathon.