En ny tutorial visar hur man kör stora språkmodeller och syn-språkmodeller lokalt på mikrokontrollern Arduino UNO Q. Marc Pous från Edge Impulse har beskrivit steg med verktyget yzma för att aktivera offline AI-inferens i kortets Linux-miljö. Detta tillvägagångssätt möjliggör integritetsfokuserade applikationer i edge computing.
Arduino UNO Q, som introducerades för några månader sedan, har väckt blandade åsikter bland användare. Vissa uppskattar den ökade beräkningskraften och förmågan att köra Linux, medan andra ser App Lab-miljön som förvirrande och begränsande. Till skillnad från tidigare Arduino-kort har UNO Q en STM32H5-koprocerssor, vilket gör det lämpligt för komplexa projekt utöver grundläggande uppgifter som att blinka en LED. nnI en tutorial publicerad på Hackster.io demonstrerar Edge Impulse-ingenjören Marc Pous körning av högpresterande stora språkmodeller (LLMs) och syn-språkmodeller (VLMs) direkt på UNO Q. Guiden utnyttjar yzma, en Go-wrapper för llama.cpp utvecklad av Ron Evans, känd för projekt som Gobot och TinyGo. Yzma förenklar integration av AI-inferens i Go-applikationer, undviker komplexa CGo-bindningar, och fungerar inom kortets Debian-baserade Linux-system. nnAnvändare följer steg för att installera Go på UNO Q, konfigurera yzma och ladda ner kompatibla GGUF-modeller från Hugging Face. För textbaserade uppgifter använder Pous modellen SmolLM2-135M-Instruct, som har cirka 135 miljoner parametrar. Kvantisering och llama.cpp:s effektivitet gör att den kan köras på Arm-baserad hårdvara, med stöd för helt offline chattinteraktioner. nnTutorialen utökas till multimodala funktioner med modellen SmolVLM2-500M-Video-Instruct, som har cirka 500 miljoner parametrar. Denna modell bearbetar bilder och korta videor tillsammans med text. I ett exempel analyserar UNO Q ett foto av markörer på ett skrivbord och producerar en detaljerad beskrivning utan molnanslutning. nnEn sådan lokal AI-körning stödjer integritetsmedvetna edge-system, som kombinerar mikrokontrollerstyrning med AI för applikationer i robotik och smarta hem. Utvecklare kan tolka bilder, hantera röstkommandon eller bearbeta sensordata på enheten, vilket öppnar dörrar för innovativa designer.