Proyecto #Somos600M

Objetivo: representar en los sistemas de IA la diversidad de las lenguas habladas por 600M de personas. ¡Únete!


Somos 600 millones de personas hispanohablantes. Lanzamos el Proyecto #Somos600M porque necesitamos que la riqueza de nuestras lenguas esté representada en los sistemas de IA.

A pesar de ser el 7.5% de la población mundial, no contamos ni con un corpus de instrucciones abierto que nos permita entrenar LLMs nativos, ni con métodos estandarizados para evaluarlos. El Proyecto #Somos600M tiene por objetivo crear estos dos recursos, imprescindibles para el desarrollo de la IA en nuestras lenguas.

¿Lo mejor? Tenemos varias iniciativas para lograr estos objetivos y… ¡TODO EL MUNDO puede colaborar! 🎉

Cartel del Proyecto #Somos600M

🚀 Nuestros objetivos

Somos una comunidad internacional de personas hispanohablantes apasionadas por el PLN. Nuestra misión es acercar la IA a 600 millones de personas hispanohablantes alrededor del mundo. Y nuestra visión, conseguir una justa representación del español y lenguas cooficiales en el mundo digital.

En este proyecto nos hemos fijado dos objetivos de alto impacto:

  1. 🌎 Crear el mayorcorpus de instrucciones de calidad y diverso, que represente las variedades del español de los 600M de personas hispanohablantes y nos permita entrenar modelos nativos e inclusivos.
  2. ✅ Crear la primeraleaderboard pública de LLMs generativosque nos permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales.

🚀 Iniciativas

Hackathon #Somos600M

💻 Crea una base de datos y entrena tu propio LLM

Al unirte a este hackathon tendrás la oportunidad de colaborar con la creación de LLMs de calidad e inclusivos en tu lengua. Aplica tus conocimientos para superar los retos de cada etapa de desarrollo de tu LLM: creación del corpus, entrenamiento y evaluación.

Cada equipo participante (1-5 personas) generará un corpus de instrucciones, entrenará su LLM y creará una demo para compartir su gran trabajo con la comunidad.

Desde SomosNLP queremos animarte a participar independientemente de tus conocimientos actuales. Organizaremos talleres prácticos y sesiones de mentoría para que puedan participar tanto grupos de institutos de investigación como grupos de estudiantes de grado, ¡todos los proyectos suman!

Estandarizar las evaluaciones de nuestros LMs

🔍 Valida traducciones del inglés al español

¿Hablas español e inglés? Independiente de si sabes de IA nos puedes ayudar a crear el primer ranking público de LLMs en español 🔥

En comunidad vamos a validar las traducciones hechas por la Universidad de Oregón de las bases de datos utilizadas en la famosa Open LLM Leaderboard de Hugging Face. Gracias al apoyo de Argilla y Hugging Face, colaborar es muy sencillo:

  1. Crea una cuenta enHugging Face
  2. Entra en elespacio de anotación
  3. Valida la traducción de un párrafo del inglés al español
  4. Repite el paso 3 cuantas veces quieras y mira cómo subes en el ranking decolaboraciones
  5. Tu nombre aparecerá como parte del equipo que creó las bases de datos

Extra. Además, habrá premios a elegir entre créditos para entrenar LLMs y un descuento en un curso de redacción para las personas que hayan aportado más correcciones de calidad.

✨ Colabora o dona corpus de evaluación en español

Vamos a crear la primera leaderboard abierta de LLMs generativos en español.

Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en español de diversas tareas y temas. Si te interesa colaborar en la creación de este leaderboard contáctanos viainfo@somosnlp.org. Si te interesa que incluyamos tu corpus,dona tu corpus. ¡Te esperamos!

✨ Colabora o dona corpus en lenguas de LATAM y España

Vamos a crear una leaderboard multilingüe de lenguas de LATAM y España.

Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en las diferentes lenguas de los países hispanohablantes. Si tu grupo de investigación tiene recursos (tanto abiertos, como privados que queráis donar) avísanos, ¡será un placer aprovechar vuestro trabajo y conseguiros citas!

Contáctanos viainfo@somosnlp.orgo descubre cómodonar tu corpus. ¡Te esperamos!

Campaña de recolección de corpus

📚 Dona una base de datos

Como sabes, la clave de la IA reside en los datos. Como has visto, la iniciativa #Somos600M está centrada principalmente en la creación y recolección de bases de datos. Así quetanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!

Formación gratuita y de todos los niveles

💡 Asiste a las charlas de especialistas

En SomosNLP creemos que formarte también es una manera de colaborar con el futuro del PLN en nuestras lenguas. Durante los martes del mes de marzo organizamos diversas keynotes impartidas por profesionales del mundo del Procesamiento del Lenguaje Natural. Todos nuestros eventos son gratuitos y están abiertos a todas las personas.

🔊 Propón una ponencia

Invitamos a personas del ámbito académico o industrial, expertas y apasionadas del campo de la IA y en particular del PLN, a compartir sus conocimientos y avances. ¡Lee los temas sugeridos y mándanos tu propuesta!

🧑‍🏫 Ofrece una mentoría

Comparte tu experiencia y conocimiento apoyando a la comunidad a crear bases de datos de calidad y entrenar LLMs de una manera responsable. En épocas fuera de hackatones puedes impartir una sesión AMA (Ask Me Anything) sobre el tema que elijas. ¡Piensa en tus puntos fuertes y ofrece una mentoría!

Aunar esfuerzos con iniciativas alineadas

🤩 Cuéntanos tu proyecto

Contáctanos si estás investigando en PLN en español, lenguas cooficiales u originarias de LATAM. Queremos dar visibilidad a todas las iniciativas alineadas con nuestra misión y nos encantaría añadir la tuya a la lista.

Mándanos un email ainfo@somosnlp.org, ¡será un placer conocerte!

🤗 Únete al equipo

Puedes colaborar creando contenido, recursos de apoyo (e.g., tutoriales), escribiendo artículos o investigando sobre IA en español.

🙌 Patrocina este maravilloso proyecto

SomosNLP es una comunidad sin ánimo de lucro, buscamos donaciones, premios y visibilidad para conseguir nuestros ambiciosos objetivos y crear impacto en el mundo hispanohablante. Toda la ayuda es bienvenida, descubre cómo puedes apoyar nuestra misión ofreciendo visibilidad, vales y donaciones. ¡Contamos contigo!

👏 Agradecimientos

Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a hacer el PLN más inclusivo!

Patrocinios de Oro

Argilla

Hugging Face

Instituto de Ingeniería del Conocimiento

Calamo&Cran

LenguajeNatural.AI

MonsterAPI

Saturdays AI

Yamato

Patrocinios de Comunidad

AlexFocus

Mujeres Tech

Proyecto ILENIA

Sociedad Española para el Procesamiento del Lenguaje Natural

DiverTLes

Women Tech Global Conference

Spain AI

Big Onion

Universidad Nacional de Loja

LatinX in AI


🤗 ¡Conecta!

Aquí tienes diferentes maneras de conectar con la comunidad: