Andrés Marafioti

Ponencias

Cómo hacer un Modelos Visión-Lenguaje eficiente? | Hackathon SomosNLP 2025

<EventSummary description="Los Modelos de Lenguaje de Gran Escala (LLMs) han transformado la manera en que las máquinas entienden y generan texto. Pero, ¿qué sucede cuando les enseñamos a ver?

Los Modelos Visión-Lenguaje (VLMs) combinan el poder del entendimiento visual y textual, permitiendo que las máquinas interpreten y razonen sobre el mundo de forma multimodal. En esta charla, exploraremos cómo funcionan los VLMs, desmitificaremos la mecánica detrás de sus capacidades visuales y discutiremos por qué es importante hacerlos eficientes. En el camino, presentaré SmolVLM, nuestro modelo VLM compacto de última generación, y compartiré ideas sobre cómo lo optimizamos para funcionar directamente en dispositivos sin comprometer el rendimiento.

Tanto si eres nuevo en la inteligencia artificial multimodal como si ya eres un experto, te llevarás una comprensión más profunda de cómo ven las máquinas —y de cómo pueden hacerlo de forma más inteligente." poster=“https://somosnlp.github.io/assets/logo_somosnlp.png” video=“https://www.youtube.com/@SomosNLP” />

Biografía

Andres Marafioti es investigador en Hugging Face, donde trabaja en modelos multimodales eficientes. Lideró el desarrollo de SmolVLM, un modelo Visión-Lenguaje compacto optimizado para correr en dispositivos. Con experiencia en aprendizaje automático aplicado al habla, la música y la visión, Andres busca hacer la inteligencia artificial más accesible y sustentable.

Última actualización: 03 de abril de 2025