Somos 600 millones de personas hispanohablantes. Lanzamos el Proyecto #Somos600M porque necesitamos que la riqueza de nuestras lenguas esté representada en los sistemas de IA.
A pesar de ser el 7.5% de la población mundial, no contamos ni con un corpus de instrucciones abierto que nos permita entrenar LLMs nativos, ni con métodos estandarizados para evaluarlos. El Proyecto #Somos600M tiene por objetivo crear estos dos recursos, imprescindibles para el desarrollo de la IA en nuestras lenguas.
¿Lo mejor? Tenemos varias iniciativas para lograr estos objetivos y… ¡TODO EL MUNDO puede colaborar! 🎉
🚀 Nuestros objetivos
Somos una comunidad internacional de personas hispanohablantes apasionadas por el PLN. Nuestra misión es conseguir una justa representación del español y lenguas cooficiales en el mundo digital mediante la creación de recursos abiertos.
En la comunidad hispanohablante no contamos con LLMs propios adaptados para seguir instrucciones. Esta adaptación mejora la versatilidad de los modelos, importante para el alineamiento de la IA y aplicaciones de tipo conversacional y RAG. Por tanto, en este proyecto nos hemos fijado dos objetivos iniciales de gran impacto:
- 🌎 Crear el mayorcorpus de instrucciones de calidad y diverso, que incluya diversas tareas de PLN, represente las diferentes variedades del español y lenguas cooficiales y nos permita entrenar modelos nativos e inclusivos.
- ✅ Crear la primeraleaderboard abierta de LLMs generativosque nos permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales, ofreciendo resultados públicos e imparciales.
💡 Iniciativas
Generación de instrucciones
💻 [FINALIZADO] Hackathon: Crea una base de datos y entrena tu propio LLM
Al unirte a este hackathon tendrás la oportunidad de colaborar con la creación de LLMs de calidad e inclusivos en tu lengua. Aplica tus conocimientos para superar los retos de cada etapa de desarrollo de tu LLM: creación del corpus, entrenamiento y evaluación.
Cada equipo participante (1-5 personas) generará un corpus de instrucciones, entrenará su LLM y creará una demo para compartir su gran trabajo con la comunidad.
Desde SomosNLP queremos animarte a participar independientemente de tus conocimientos actuales. Organizaremos talleres prácticos y sesiones de mentoría para que puedan participar tanto grupos de institutos de investigación como grupos de estudiantes de grado, ¡todos los proyectos suman!
Estandarizar las evaluaciones de nuestros LMs
🔍 Valida traducciones del inglés al español
¿Hablas español e inglés? Independiente de si sabes de IA nos puedes ayudar a crear el primer ranking público de LLMs en español 🔥
En comunidad vamos a validar las traducciones hechas por la Universidad de Oregón de las bases de datos utilizadas en la famosa Open LLM Leaderboard de Hugging Face. Gracias al apoyo de Argilla y Hugging Face, colaborar es muy sencillo:
- Crea una cuenta enHugging Face
- Entra en elespacio de anotación
- Valida la traducción de un párrafo del inglés al español
- Repite el paso 3 cuantas veces quieras y mira cómo subes en el ranking decolaboraciones
- Tu nombre aparecerá como parte del equipo que creó las bases de datos
Extra. Además, habrá premios a elegir entre créditos para entrenar LLMs y un descuento en un curso de redacción para las personas que hayan aportado más correcciones de calidad.
✨ Colabora o dona corpus de evaluación en español
Vamos a crear la primera leaderboard abierta de LLMs generativos en español.
Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en español de diversas tareas y temas. Si te interesa colaborar en la creación de este leaderboard contáctanos viainfo@somosnlp.org. Si te interesa que incluyamos tu corpus,dona tu corpus. ¡Te esperamos!
✨ Colabora o dona corpus en lenguas de LATAM y España
Vamos a crear una leaderboard multilingüe de lenguas de LATAM y España.
Buscamos tanto colaboraciones con grupos de investigación como donaciones de corpus de evaluación en las diferentes lenguas de los países hispanohablantes. Si tu grupo de investigación tiene recursos (tanto abiertos, como privados que queráis donar) avísanos, ¡será un placer aprovechar vuestro gran trabajo!
Contáctanos viainfo@somosnlp.orgo descubre cómodonar tu corpus. ¡Te esperamos!
Campaña de recolección de corpus
📚 Dona una base de datos
Como sabes, la clave de la IA reside en los datos. Como has visto, la iniciativa #Somos600M está centrada principalmente en la creación y recolección de bases de datos. Así quetanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!
Formación gratuita y de todos los niveles
💡 Asiste a las charlas de especialistas
En SomosNLP creemos que formarte también es una manera de colaborar con el futuro del PLN en nuestras lenguas. Durante los martes del mes de marzo organizamos diversas keynotes impartidas por profesionales del mundo del Procesamiento del Lenguaje Natural. Todos nuestros eventos son gratuitos y están abiertos a todas las personas.
🔊 Propón una ponencia
Invitamos a personas del ámbito académico o industrial, expertas y apasionadas del campo de la IA y en particular del PLN, a compartir sus conocimientos y avances. ¡Lee los temas sugeridos y mándanos tu propuesta!
🧑🏫 Ofrece una mentoría
Comparte tu experiencia y conocimiento apoyando a la comunidad a crear bases de datos de calidad y entrenar LLMs de una manera responsable. En épocas fuera de hackatones puedes impartir una sesión AMA (Ask Me Anything) sobre el tema que elijas. ¡Piensa en tus puntos fuertes y ofrece una mentoría!
Aunar esfuerzos con iniciativas alineadas
🤩 Cuéntanos tu proyecto
Contáctanos si estás investigando en PLN en español, lenguas cooficiales u originarias de LATAM. Queremosdar visibilidad a todas las iniciativas alineadas con nuestra misióny nos encantaría añadir la tuya a la lista.
Mándanos un email ainfo@somosnlp.orgo contribuye directamente al Space, ¡será un placer conocerte!
🤗 Únete al equipo
Puedes colaborar creando contenido, recursos de apoyo (e.g., tutoriales), escribiendo artículos o investigando sobre IA en español.
🙌 Patrocina este maravilloso proyecto
SomosNLP es una comunidad sin ánimo de lucro, buscamos donaciones, premios y visibilidad para conseguir nuestros ambiciosos objetivos y crear impacto en el mundo hispanohablante. Toda la ayuda es bienvenida, descubre cómo puedes apoyar nuestra misión ofreciendo visibilidad, vales y donaciones. ¡Contamos contigo!
🚀 Avance
Situación inicial
Corpus de instrucciones originalmente creados en nuestras lenguas:
- MentorCA, creado por AINA e ILENIA (Catalán, 10k)
- MentorES, creado por AINA e ILENIA (Español, 10k)
- AYA Dataset ES, creado por CohereForAI (Español, 4k)
Leaderboards para modelos discriminativos con tareas originalmente creadas en nuestras lenguas:
Si estás trabajando en un proyecto similar o conoces más recursos avísanos :)
Situación actual
Los equipos del Hackathon SomosNLP 2024 #Somos600M crearon 18 corpus de instrucciones:
Gracias a las donaciones de 5 grupos de investigación, el 1 de julio lanzaremos la primera versión de la leaderboard:
Próximos pasos
- Publicar la v1 de la leaderboard el 1 de julio
- Añadir más tareas e idiomas a la leaderboard
- Escalar la campaña de recolección de corpus
- Organizar hackathones enfocados en temas e idiomas precisos
👏 Agradecimientos
Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a hacer el PLN más inclusivo!
Patrocinios de Oro
Patrocinios de Corpus
Patrocinios de Oro del Hackathon #Somos600M
Patrocinios de Comunidad
🤗 ¡Conecta!
Buscamos colaboraciones con grupos de investigación de LATAM, el Caribe y España, ¡contáctanos!
Si te apetece unirte a la comunidad, asistir a nuestros eventos y participar en nuestras iniciativas aquí tienes diferentes maneras de conectar:
- Únete a la comunidad enDiscord(¡ya somos más de 1900!)
- Síguenos enTwitteryLinkedIn
- Suscríbete a nuestro canal deYouTube
- Guarda los eventos delcalendario de Google