110 € y una PlayStation 5 muerta: cómo montar una estación de IA local con 16 GB de memoria

💡 Antes de empezar Necesitas: Placa BC-250, fuente de alimentación ATX, disipador/ventilador, un SSD, monitor con HDMI y conocimientos básicos de Linux Tiempo estimado: Un fin de semana completo (entre montar el hardware y dejarlo fino) Nivel: Para quien ya ha montado algo similar — necesitas soldar nada, pero sí saber moverte por Linux y no asustarte si algo no arranca a la primera

El hack que nadie esperaba

Alguien en China tenía miles de APUs — el cerebro combinado de procesador y gráfica — sacadas de PlayStation 5 defectuosas. Las montaron en placas para minar criptomonedas, el negocio dejó de ser rentable, y ahora las venden en eBay por unos 110 €. Un usuario llamado [akandr] se compró una, le instaló Linux, y consiguió correr modelos de inteligencia artificial de 14.000 millones de parámetros. En local. Sin nube. Sin suscripciones. La comunidad de Hackaday y r/LocalLLaMA llevan semanas perdiendo la cabeza con esto.

Qué es exactamente la BC-250

La AMD BC-250 es una placa compacta que lleva soldada una APU — una Accelerated Processing Unit, es decir, un chip que combina procesador (CPU) y tarjeta gráfica (GPU) en una sola pieza de silicio. En este caso, es esencialmente el mismo chip que lleva la PS5, pero con unidades defectuosas para juegos que funcionan perfectamente para otros cálculos.

Las specs que importan:

CPU: 6 núcleos Zen 2 (la misma arquitectura que los Ryzen 3000 de escritorio)
GPU: 24 CUs RDNA 2 — la misma generación gráfica de la PS5 y las Radeon RX 6000
Memoria: 16 GB GDDR6 unificada — esto es clave, porque CPU y GPU comparten la misma memoria, igual que en los Mac con chip M
Formato: Placa independiente, normalmente en formato mini-ITX o similar, con salida HDMI y conector de alimentación ATX

Esos 16 GB de memoria compartida son el dato estrella. Para correr un LLM — un Large Language Model, los modelos de lenguaje tipo ChatGPT — necesitas que el modelo quepa entero en memoria. Con 16 GB puedes cargar modelos de hasta 14B parámetros cuantizados a 4 bits, que es donde empieza la diversión de verdad.

Por qué nos interesa (y mucho)

Pongamos los números en contexto. Para conseguir 16 GB de VRAM — la memoria dedicada de una tarjeta gráfica — en una GPU nueva, necesitas una NVIDIA RTX 4060 Ti 16GB (~450 €) o una AMD RX 7800 XT (~500 €). La BC-250 te da esos 16 GB por 110 €. Sí, es más lenta. Sí, es hardware reciclado. Pero la relación rendimiento-por-euro para inferencia de IA — el proceso de hacerle preguntas a un modelo ya entrenado — es absurda.

El truco técnico está en Vulkan. ROCm — el stack de AMD para computación en GPU, equivalente a CUDA de NVIDIA — no soporta la arquitectura GFX1013 de este chip. Pero Vulkan — una API gráfica universal que también puede hacer cálculos generales — sí funciona. Y Ollama — una app gratuita que te permite correr modelos de IA en tu propio ordenador sin depender de internet — ya soporta Vulkan como backend. Eso significa que puedes correr Llama 3, Mistral, Phi-3 y docenas de modelos más directamente en esta placa.

La guía de [akandr] en GitHub va más allá de “instala Ollama y listo”. Incluye scripts para montar un asistente personal que te responde por Signal (la app de mensajería cifrada), generación de imágenes con stable-diffusion.cpp, y automatización de Home Assistant — una plataforma open source para controlar dispositivos inteligentes de tu casa. Todo corriendo offline, todo en una placa de 110 €.

Cómo empezar

Lo primero es lo físico. La BC-250 necesita una fuente ATX estándar de PC (con 300W sobra), un disipador con ventilador (un cooler de CPU barato vale), y un SSD conectado por USB o por el M.2 si tu placa lo tiene. Enchufas HDMI a un monitor, arrancas, e instalas Ubuntu 22.04 o similar.

Una vez en Linux, abre la terminal — la aplicación donde escribes comandos de texto — y ejecuta esto para instalar Ollama con soporte Vulkan:

curl -fsSL https://ollama.com/install.sh | sh

Después, descarga un modelo de 14B parámetros cuantizado que quepa en tus 16 GB:

ollama run llama3:14b-q4_K_M

Ese comando descarga el modelo Llama 3 de Meta en versión comprimida (cuantizada a 4 bits, que ocupa unos 8 GB) y te abre un chat directo en la terminal. La primera vez tarda unos minutos en descargar. Después, cada respuesta tarda entre 5 y 15 segundos dependiendo de la longitud — no es instantáneo, pero es tuyo.

Para la guía completa — incluyendo cómo configurar los drivers Vulkan, el bot de Signal y la integración con Home Assistant — el repo de [akandr] en GitHub es la referencia. Búscalo como “bc250-ai-guide” y sigue los pasos al pie de la letra.

Lo que no te van a contar

Esto no es plug-and-play. La refrigeración es el primer dolor de cabeza: estas placas se diseñaron para racks con ventilación industrial, no para tu escritorio. Sin un disipador decente, se throttlea — reduce su velocidad para no quemarse — en minutos. Los drivers Vulkan funcionan, pero no esperes el mismo soporte que con una GPU NVIDIA: algunos modelos dan errores raros que requieren tocar configuraciones a mano. Y la velocidad de inferencia, siendo honestos, es entre 3 y 5 veces más lenta que una RTX 3060 con CUDA. También estás comprando hardware sin garantía de ningún tipo — si llega muerto, pierdes tus 110 €. Compra a vendedores con buenas valoraciones y asume el riesgo.

Veredicto

Si ya has montado un PC, has instalado Linux alguna vez y no te importa dedicar un fin de semana a pelear con drivers, la BC-250 es la forma más barata de tener una estación de IA local con 16 GB de memoria. Si nunca has abierto una terminal o prefieres que las cosas funcionen al sacarlas de la caja, espera a que los mini-PCs con NPU bajen de precio. Para los que disfrutan el camino tanto como el destino, este es el cacharro del año.