新しいチュートリアルが、Arduino UNO Qマイクロコントローラ上で大規模言語モデルとビジョン言語モデルをローカルで実行する方法を示しています。Edge ImpulseのMarc Pous氏が、yzmaツールを使用してボードのLinux環境でオフラインAI推論を有効にする手順を説明。このアプローチは、エッジコンピューティングにおけるプライバシー重視のアプリケーションを可能にします。
最近数ヶ月で導入されたArduino UNO Qは、ユーザー間でさまざまな意見を引き起こしています。一部は計算能力の向上とLinux実行能力を評価していますが、他はApp Lab環境を混乱を招く制限的なものと見なしています。従来のArduinoボードとは異なり、UNO QはSTM32H5コプロセッサを搭載し、LED点滅などの基本タスクを超えた複雑なプロジェクトに適しています。 nnHackster.ioに掲載されたチュートリアルで、Edge ImpulseのエンジニアMarc Pous氏が高性能大規模言語モデル(LLM)とビジョン言語モデル(VLM)をUNO Q上で直接実行する方法を実演。ガイドは、GobotやTinyGoなどのプロジェクトで知られるRon Evans氏が開発したllama.cppのGoラッパーであるyzmaを活用します。Yzmaは複雑なCGoバインディングを避け、GoアプリケーションへのAI推論統合を簡素化し、ボードのDebianベースLinuxシステム内で動作します。 nnユーザーはUNO QにGoをインストール、yzmaを設定し、Hugging Faceから互換性のあるGGUFモデルをダウンロードします。テキストベースタスクでは、約1億3500万パラメータのSmolLM2-135M-Instructモデルを使用。量子化とllama.cppの効率によりArmベースハードウェア上で実行可能で、完全にオフラインのチャットインタラクションをサポートします。 nnチュートリアルはマルチモーダル機能に拡張され、約5億パラメータのSmolVLM2-500M-Video-Instructモデルを使用。このモデルは画像や短い動画をテキストと共に処理します。一例として、UNO Qは机上のマーカーの写真を分析し、クラウド接続なしで詳細な説明を生成します。 nnこのようなローカルAI実行は、プライバシーを重視したエッジシステムをサポートし、マイクロコントローラ制御とAIを組み合わせ、ロボティクスやスマートホームアプリケーションに活用。開発者はデバイス上で画像解釈、音声コマンド処理、センサーデータ処理が可能となり、革新的なデザインの可能性を開きます。