Un nuevo tutorial muestra cómo ejecutar modelos de lenguaje grandes y modelos de visión-lenguaje de forma local en el microcontrolador Arduino UNO Q. Marc Pous de Edge Impulse ha detallado pasos utilizando la herramienta yzma para habilitar inferencia de IA sin conexión en el entorno Linux de la placa. Este enfoque permite aplicaciones centradas en la privacidad en computación en el borde.
El Arduino UNO Q, introducido en los últimos meses, ha generado opiniones variadas entre los usuarios. Algunos aprecian su mayor potencia computacional y capacidad para ejecutar Linux, mientras que otros ven el entorno App Lab como confuso y restrictivo. A diferencia de las placas Arduino anteriores, el UNO Q cuenta con un coprocesador STM32H5, lo que lo hace adecuado para proyectos complejos más allá de tareas básicas como parpadear un LED. nnEn un tutorial publicado en Hackster.io, el ingeniero de Edge Impulse Marc Pous demuestra la ejecución de modelos de lenguaje grandes (LLMs) de alto rendimiento y modelos de visión-lenguaje (VLMs) directamente en el UNO Q. La guía aprovecha yzma, un envoltorio en Go para llama.cpp desarrollado por Ron Evans, conocido por proyectos como Gobot y TinyGo. Yzma simplifica la integración de inferencia de IA en aplicaciones Go, evitando enlaces complejos de CGo, y opera dentro del sistema Linux basado en Debian de la placa. nnLos usuarios siguen pasos para instalar Go en el UNO Q, configurar yzma y descargar modelos GGUF compatibles de Hugging Face. Para tareas basadas en texto, Pous utiliza el modelo SmolLM2-135M-Instruct, que tiene alrededor de 135 millones de parámetros. La cuantización y la eficiencia de llama.cpp permiten que se ejecute en el hardware basado en Arm, soportando interacciones de chat completamente sin conexión. nnEl tutorial se extiende a capacidades multimodales con el modelo SmolVLM2-500M-Video-Instruct, que cuenta con alrededor de 500 millones de parámetros. Este modelo procesa imágenes y videos cortos junto con texto. En un ejemplo, el UNO Q analiza una foto de marcadores en un escritorio y produce una descripción detallada sin conexión a la nube. nnEsta ejecución local de IA soporta sistemas en el borde conscientes de la privacidad, combinando control de microcontrolador con IA para aplicaciones en robótica y hogares inteligentes. Los desarrolladores pueden interpretar imágenes, manejar comandos de voz o procesar datos de sensores en el dispositivo, abriendo posibilidades para diseños innovadores.