Un mini PC de 1.399€ que corre modelos de IA de 70 mil millones de parámetros — sin tarjeta gráfica dedicada

💡 Antes de empezar Necesitas: El mini PC, un monitor, teclado y ratón — nada más. No hace falta GPU externa. Tiempo estimado: 30 minutos desde que lo sacas de la caja hasta tener tu primer modelo de IA respondiendo. Nivel: Necesitas perder el miedo a la terminal — pero es un solo comando para empezar.

El portátil que nadie se llevaría de casa

Imagina un Mac Studio, pero que corre Windows y Linux, que puedes abrir, y que no te obliga a vivir en el ecosistema Apple. Eso es, básicamente, lo que GMKtec ha metido en una caja del tamaño de un libro gordo. El EVO-X2 lleva dentro el procesador más potente que AMD ha diseñado para este formato — el Ryzen AI Max+ 395 — y 128 GB de memoria que comparten CPU y GPU sin cuellos de botella. ¿El resultado? Un mini PC que puede correr modelos de lenguaje de 70 mil millones de parámetros en tu escritorio, sin tarjeta gráfica dedicada, consumiendo menos que una bombilla.

Qué es exactamente

El GMKtec EVO-X2 es un mini PC con el chip AMD Ryzen AI Max+ 395, basado en la arquitectura Strix Halo. Este procesador tiene 16 núcleos de CPU, una GPU integrada Radeon 8060S con 40 CUs — unidades de cálculo, los “motores” que procesan gráficos e IA — y una NPU — un chip especializado en cálculos de inteligencia artificial, separado de la CPU y la GPU — capaz de 50 TOPS (billones de operaciones por segundo).

Lo realmente importante está en la memoria: 128 GB de LPDDR5X a 8000 MHz en configuración unificada. “Unificada” significa que la CPU y la GPU comparten el mismo bloque de memoria, igual que hacen los Mac con chip M. Puedes asignar hasta 96 GB como VRAM — la memoria que usa la GPU para procesar modelos de IA — directamente desde la BIOS. En Linux, usuarios de la comunidad han conseguido dedicar hasta 120 GB vía GTT (una tabla de traducción gráfica que permite a la GPU acceder a más memoria del sistema).

Completan el paquete un SSD NVMe de 2 TB, WiFi 7, Bluetooth 5.4, dos puertos USB4 (compatible con Thunderbolt), HDMI 2.1, y un consumo de solo 54W en modo silencioso.

Por qué nos interesa (y mucho)

Hasta ahora, correr un LLM — un modelo de lenguaje grande, como los que hay detrás de ChatGPT — de 70 mil millones de parámetros en tu casa requería una de estas dos cosas: un Mac Studio M2 Ultra de más de 4.000€, o una torre con una GPU NVIDIA de 24 GB (que ni siquiera es suficiente para un 70B completo sin cuantizar agresivamente). El EVO-X2 rompe esa barrera por 1.399€ en su versión de 64 GB, o unos 2.200€ en la versión de 128 GB que realmente desbloquea los modelos grandes.

La comunidad de r/LocalLLaMA — el subreddit donde se reúnen los entusiastas de correr IA en casa — y medios como ServeTheHome y Tom’s Hardware coinciden: este mini PC corre Llama 3.1 70B en cuantización Q4_K_M — una forma de comprimir el modelo para que quepa en menos memoria, sacrificando algo de calidad — a una velocidad usable. No estamos hablando de 1 token por segundo mirando el reloj. Estamos hablando de mantener una conversación fluida con un modelo que rivaliza con GPT-4 en muchas tareas.

Y lo mejor: como consume tan poco, puedes dejarlo encendido 24/7 como servidor local de agentes de IA. Tiene Wake-on-LAN — se enciende solo cuando otro dispositivo de tu red lo necesita — así que puede funcionar como el cerebro de tu casa inteligente, tu asistente de programación privado, o tu motor de búsqueda semántica personal. Todo sin que un solo byte salga de tu red.

Cómo empezar

Lo primero es decidir si usas Windows o Linux. En Windows funciona todo out-of-the-box. GMKtec incluye incluso una app store preinstalada con modelos de IA listos para descargar — aunque nosotros recomendamos instalar Ollama directamente.

Ollama — una app gratuita que te permite correr modelos de IA en tu propio ordenador sin depender de internet — se instala así. Abre la terminal de tu ordenador (en Windows busca “PowerShell”, en Linux abre cualquier terminal) y escribe:

curl -fsSL https://ollama.com/install.sh | sh

En Windows, es más fácil descargar el instalador desde ollama.com. Una vez instalado, descarga y ejecuta Llama 3.1 70B con un solo comando:

ollama run llama3.1:70b-instruct-q4_K_M

La primera vez tardará un rato en descargar el modelo (~40 GB). Después, cada vez que lo ejecutes tardará unos segundos en arrancar. Si quieres una interfaz gráfica más amigable, LM Studio — otra app gratuita con interfaz visual para gestionar modelos — es una alternativa excelente que detecta automáticamente la VRAM disponible.

Paso importante: para sacar el máximo rendimiento, entra en la BIOS del EVO-X2 (pulsando DEL al encender) y asigna la VRAM de la GPU a 96 GB. Por defecto viene en un valor más bajo.

Lo que no te van a contar

La velocidad de inferencia — el tiempo que tarda el modelo en generar cada palabra — no va a competir con una RTX 4090. Hablamos de 8-12 tokens por segundo con un 70B, frente a los 30+ de una GPU dedicada de gama alta. Para conversación es perfectamente usable, pero si tu plan es procesar miles de peticiones en paralelo, necesitas más hierro. También hay que decir que el ventilador, aunque silencioso en reposo, se nota bajo carga sostenida — no es ruidoso, pero tampoco es un Mac Mini. Y un detalle importante: la versión de 64 GB, la más barata, no puede con modelos de 70B en Q4_K_M. Necesitas la de 128 GB, que sube a unos 2.200€. El precio de entrada de 1.399€ es para modelos de hasta 30-34B, que siguen siendo muy capaces pero no son la bestia que anuncian en los titulares.

Veredicto

Si quieres un servidor local de IA que corra modelos grandes, no quieres Apple, y no quieres montar una torre con GPU dedicada, el EVO-X2 con 128 GB es la opción más compacta y eficiente que existe ahora mismo. Si tu presupuesto no llega a los 2.200€ de la versión completa, mira la de 64 GB para modelos más pequeños — o ahorra un poco más. No es barato, pero es más barato que un Mac Studio y más flexible que cualquier alternativa en este formato.