Proyecto #Somos600M

Objetivo: representar en los sistemas de IA la diversidad de las lenguas habladas por 600M de personas. ¡Únete!


Somos 600 millones de personas hispanohablantes. Lanzamos el Proyecto #Somos600M porque necesitamos que la riqueza de nuestras lenguas esté representada en los sistemas de IA.

A pesar de ser el 7.5% de la población mundial, no contamos ni con un corpus de instrucciones abierto que nos permita entrenar LLMs nativos, ni con métodos estandarizados para evaluarlos. El Proyecto #Somos600M tiene por objetivo crear estos dos recursos, imprescindibles para el desarrollo de la IA en nuestras lenguas.

¿Lo mejor? Tenemos varias iniciativas para lograr estos objetivos y… ¡TODO EL MUNDO puede colaborar! 🎉

Cartel del Proyecto #Somos600M


🚀 Nuestros objetivos

Somos una comunidad internacional de personas hispanohablantes apasionadas por el PLN. Nuestra misión es conseguir una justa representación del español y lenguas cooficiales en el mundo digital mediante la creación de recursos abiertos.

En la comunidad hispanohablante no contamos con LLMs propios adaptados para seguir instrucciones. Esta adaptación mejora la versatilidad de los modelos, importante para el alineamiento de la IA y aplicaciones de tipo conversacional y RAG. Por tanto, en este proyecto nos hemos fijado dos objetivos iniciales de gran impacto:

  1. 🌎 Crear el mayorcorpus de instrucciones de calidad y diverso, que incluya diversas tareas de PLN, represente las diferentes variedades del español y lenguas cooficiales y nos permita entrenar modelos nativos e inclusivos.
  2. ✅ Crear la primeraleaderboard abierta de LLMs generativosque nos permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales, ofreciendo resultados públicos e imparciales.

💡 Iniciativas

Generación de instrucciones

💻 [FINALIZADO] Hackathon: Crea una base de datos y entrena tu propio LLM

Al unirte a este hackathon tendrás la oportunidad de colaborar con la creación de LLMs de calidad e inclusivos en tu lengua. Aplica tus conocimientos para superar los retos de cada etapa de desarrollo de tu LLM: creación del corpus, entrenamiento y evaluación.

Cada equipo participante (1-5 personas) generará un corpus de instrucciones, entrenará su LLM y creará una demo para compartir su gran trabajo con la comunidad.

Desde SomosNLP queremos animarte a participar independientemente de tus conocimientos actuales. Organizaremos talleres prácticos y sesiones de mentoría para que puedan participar tanto grupos de institutos de investigación como grupos de estudiantes de grado, ¡todos los proyectos suman!

Estandarizar las evaluaciones de nuestros LMs

🔍 Valida traducciones del inglés al español

¿Hablas español e inglés? Independiente de si sabes de IA nos puedes ayudar a crear el primer ranking público de LLMs en español 🔥

En comunidad vamos a validar las traducciones hechas por la Universidad de Oregón de las bases de datos utilizadas en la famosa Open LLM Leaderboard de Hugging Face. Gracias al apoyo de Argilla y Hugging Face, colaborar es muy sencillo:

  1. Crea una cuenta enHugging Face
  2. Entra en elespacio de anotación
  3. Valida la traducción de un párrafo del inglés al español
  4. Repite el paso 3 cuantas veces quieras y mira cómo subes en el ranking decolaboraciones
  5. Tu nombre aparecerá como parte del equipo que creó las bases de datos

Extra. Además, habrá premios a elegir entre créditos para entrenar LLMs y un descuento en un curso de redacción para las personas que hayan aportado más correcciones de calidad.

✨ Colabora o dona corpus de evaluación en español

Vamos a crear la primera leaderboard abierta de LLMs generativos en español.

Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en español de diversas tareas y temas. Si te interesa colaborar en la creación de este leaderboard contáctanos viainfo@somosnlp.org. Si te interesa que incluyamos tu corpus,dona tu corpus. ¡Te esperamos!

✨ Colabora o dona corpus en lenguas de LATAM y España

Vamos a crear una leaderboard multilingüe de lenguas de LATAM y España.

Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en las diferentes lenguas de los países hispanohablantes. Si tu grupo de investigación tiene recursos (tanto abiertos, como privados que queráis donar) avísanos, ¡será un placer aprovechar vuestro gran trabajo!

Contáctanos viainfo@somosnlp.orgo descubre cómodonar tu corpus. ¡Te esperamos!

Campaña de recolección de corpus

📚 Dona una base de datos

Como sabes, la clave de la IA reside en los datos. Como has visto, la iniciativa #Somos600M está centrada principalmente en la creación y recolección de bases de datos. Así quetanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!

Formación gratuita y de todos los niveles

💡 Asiste a las charlas de especialistas

En SomosNLP creemos que formarte también es una manera de colaborar con el futuro del PLN en nuestras lenguas. Durante los martes del mes de marzo organizamos diversas keynotes impartidas por profesionales del mundo del Procesamiento del Lenguaje Natural. Todos nuestros eventos son gratuitos y están abiertos a todas las personas.

🔊 Propón una ponencia

Invitamos a personas del ámbito académico o industrial, expertas y apasionadas del campo de la IA y en particular del PLN, a compartir sus conocimientos y avances. ¡Lee los temas sugeridos y mándanos tu propuesta!

🧑‍🏫 Ofrece una mentoría

Comparte tu experiencia y conocimiento apoyando a la comunidad a crear bases de datos de calidad y entrenar LLMs de una manera responsable. En épocas fuera de hackatones puedes impartir una sesión AMA (Ask Me Anything) sobre el tema que elijas. ¡Piensa en tus puntos fuertes y ofrece una mentoría!

Aunar esfuerzos con iniciativas alineadas

🤩 Cuéntanos tu proyecto

Contáctanos si estás investigando en PLN en español, lenguas cooficiales u originarias de LATAM. Queremosdar visibilidad a todas las iniciativas alineadas con nuestra misióny nos encantaría añadir la tuya a la lista.

Mándanos un email ainfo@somosnlp.orgo contribuye directamente al Space, ¡será un placer conocerte!

🤗 Únete al equipo

Puedes colaborar creando contenido, recursos de apoyo (e.g., tutoriales), escribiendo artículos o investigando sobre IA en español.

🙌 Patrocina este maravilloso proyecto

SomosNLP es una comunidad sin ánimo de lucro, buscamos donaciones, premios y visibilidad para conseguir nuestros ambiciosos objetivos y crear impacto en el mundo hispanohablante. Toda la ayuda es bienvenida, descubre cómo puedes apoyar nuestra misión ofreciendo visibilidad, vales y donaciones. ¡Contamos contigo!


🚀 Avance

Situación inicial

Corpus de instrucciones originalmente creados en nuestras lenguas:

  • MentorCA, creado por AINA e ILENIA (Catalán, 10k)
  • MentorES, creado por AINA e ILENIA (Español, 10k)
  • AYA Dataset ES, creado por CohereForAI (Español, 4k)

Leaderboards para modelos discriminativos con tareas originalmente creadas en nuestras lenguas:

  • ODESIA, creado por UNED NLP (Español)
  • CLUB, creado por AINA e ILENIA (Catalán)

Si estás trabajando en un proyecto similar o conoces más recursos avísanos :)

Situación actual

Los equipos del Hackathon SomosNLP 2024 #Somos600M crearon 18 corpus de instrucciones:

Mapa HackathonCorpus instrucciones

Gracias a las donaciones de 5 grupos de investigación, el 1 de julio lanzaremos la primera versión de la leaderboard:

Corpus evaluación

Próximos pasos

  • Publicar la v1 de la leaderboard el 1 de julio
  • Añadir más tareas e idiomas a la leaderboard
  • Escalar la campaña de recolección de corpus
  • Organizar hackathones enfocados en temas e idiomas precisos

👏 Agradecimientos

Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a hacer el PLN más inclusivo!

Patrocinios de Oro

Hugging Face

Argilla

Patrocinios de Corpus

Instituto de Ingeniería del Conocimiento

LenguajeNaturalAI

GING UPM

HiTZ

BSC

Patrocinios de Oro del Hackathon #Somos600M

LenguajeNatural.AI

Calamo&Cran

Saturdays AI

MonsterAPI

Yamato

Patrocinios de Comunidad

Proyecto ILENIA

Sociedad Española para el Procesamiento del Lenguaje Natural

AlexFocus

Mujeres Tech

DiverTLes

Women Tech Global Conference

Spain AI

Big Onion

Universidad Nacional de Loja

LatinX in AI


🤗 ¡Conecta!

Buscamos colaboraciones con grupos de investigación de LATAM, el Caribe y España, ¡contáctanos!

Si te apetece unirte a la comunidad, asistir a nuestros eventos y participar en nuestras iniciativas aquí tienes diferentes maneras de conectar: