Computación

NPUs, mini PCs y aceleradoras de inferencia local

4 / 4 cacharros
Nivel:
Ordenar:

Las GPUs y mini PCs de esta categoría son el núcleo de cualquier stack de IA local. La diferencia entre correr un modelo de forma usable o frustrante pasa casi siempre por aquí: cantidad de VRAM en GPU, RAM unificada en chips modernos, y la presencia o ausencia de una NPU que acelere la inferencia sin disparar el consumo.

Cómo elegir

El parámetro más importante es la memoria disponible para el modelo — VRAM si es GPU dedicada, RAM unificada si es Apple Silicon o Ryzen AI. Con menos de 8 GB puedes experimentar, pero los modelos interesantes (7B+) necesitan 12-16 GB. Si el hardware va a estar siempre encendido, el consumo en idle importa tanto como el pico de rendimiento.

Preguntas frecuentes

¿Cuánta VRAM necesito para correr IA en local?

El mínimo práctico son 8 GB de VRAM para modelos de 7B parámetros en cuantización Q4. Con 12 GB tienes margen para modelos más grandes o contextos más largos. Por debajo de 8 GB puedes experimentar, pero los modelos más útiles no cabrán.

¿Es mejor una GPU dedicada o un chip con NPU integrada?

Depende del caso de uso. Una GPU dedicada (12+ GB VRAM) gana en modelos grandes de lenguaje. Un chip con NPU integrada (Apple M4, Ryzen AI) gana en eficiencia energética y en tareas de voz e imagen. Si el servidor va a estar 24/7, la NPU integrada suele ser más sensata.

¿Funciona Intel Arc para IA local?

Sí, pero con matices. Intel Arc funciona bien con Ollama en Windows y, con algo más de configuración, en Linux. El soporte de drivers para IA en Linux ha mejorado mucho en 2025 pero sigue siendo menos maduro que NVIDIA CUDA.

Ver guía completa de hardware para IA →