Une évaluation indépendante sur du matériel standard montre que les grands modèles de langage peuvent offrir des performances utilisables sans GPU. Les tests se sont concentrés sur la vitesse et l'aspect pratique pour les tâches quotidiennes.
Un ordinateur portable Intel i5 doté de 12 Go de RAM a servi de plateforme de test pour huit modèles utilisant Ollama et la quantification GGUF. Les performances ont varié de 34 jetons par seconde pour les plus petits modèles à environ 4 jetons par seconde pour les plus volumineux.