Una evaluación independiente en hardware estándar muestra que los modelos de lenguaje grandes pueden ofrecer un rendimiento útil sin una GPU. Las pruebas se centraron en la velocidad y la practicidad para tareas cotidianas.
Un portátil con procesador Intel i5 y 12 GB de RAM sirvió como plataforma de prueba para ocho modelos utilizando Ollama y cuantización GGUF. El rendimiento osciló entre 34 tokens por segundo para los modelos más pequeños y alrededor de 4 tokens por segundo para los más grandes.