La GPU de 429 € que hace lo que la RTX 4090 hacía por 1.800 € — y cómo correr IA local con ella

💡 Antes de empezar Necesitas: Un PC de sobremesa con fuente de al menos 550W y una ranura PCIe x16 libre Tiempo estimado: 30 minutos para instalar la tarjeta + 10 minutos para tener tu primer modelo de IA corriendo Nivel: Necesitas perder el miedo a la terminal — pero solo para escribir un comando

Hace un año, si querías correr un modelo de lenguaje de 14.000 millones de parámetros a velocidad conversacional — es decir, que respondiera tan rápido como tú lees —, necesitabas una RTX 4090 de 1.800 €. Hoy, NVIDIA ha metido esa capacidad en una tarjeta de 429 €. No es magia: es que la arquitectura Blackwell y la memoria GDDR7 han bajado de peso.

Qué es exactamente la RTX 5060 Ti 16GB

Es una tarjeta gráfica — el componente que se encarga de los cálculos pesados dentro de tu ordenador — basada en la arquitectura Blackwell de NVIDIA, la misma familia que usan sus tarjetas profesionales de miles de euros. Lo que la hace especial para IA local no es su rendimiento en videojuegos (que es bueno, pero no es lo que nos trae aquí), sino sus 16 GB de VRAM GDDR7.

La VRAM — la memoria dedicada de la tarjeta gráfica — es el cuello de botella número uno cuando quieres correr modelos de IA en tu ordenador. Un LLM — un modelo de lenguaje grande, como ChatGPT pero que vive en tu máquina — necesita caber entero en esa memoria para funcionar rápido. Si no cabe, parte del modelo se queda en la RAM normal del ordenador, y la velocidad se desploma. Con 16 GB de GDDR7, la 5060 Ti tiene justo lo necesario para cargar modelos serios sin ese cuello de botella.

Specs que importan para nuestro caso:

16 GB GDDR7 con bus de 128 bits y compresión mejorada
Arquitectura Blackwell con mejoras en inferencia — el proceso de pedirle algo a un modelo y que te responda
Consumo de ~150W, lo que significa que cabe en la mayoría de PCs de sobremesa sin cambiar la fuente
Compatible con CUDA 12.x y cuantización de KV cache en Q8 — ahora te explico por qué esto importa

Por qué nos interesa (y mucho)

La comunidad de IA local lleva meses señalando esta tarjeta como la mejor relación calidad-precio de 2026. Sitios como InsiderLLM la llaman directamente “the new budget king”, y en los foros de r/LocalLLaMA, QuasarZone (Corea) y DropReference (Francia) hay consenso: es el punto dulce.

Los números lo explican. Con Ollama — una app gratuita que te permite correr modelos de IA en tu propio ordenador sin depender de internet —, esta tarjeta mueve:

Gemma 4 14B (el modelo abierto de Google): ~50 tokens por segundo. Un token es más o menos una palabra — 50 tok/s significa que lees la respuesta más lento de lo que ella la genera.
Qwen 3 14B y Phi-4 14B: rendimiento similar, velocidad interactiva real.
Qwen 3.5 35B-A3B — un modelo MoE (Mixture of Experts, un diseño donde solo se activan partes del modelo en cada consulta, haciéndolo más eficiente): 44 tok/s con 100.000 tokens de contexto. Esto significa que puedes pasarle documentos largos y que “recuerde” todo mientras te responde.

Esos 100K de contexto son posibles gracias a la cuantización Q8 del KV cache — una técnica que comprime la memoria que usa el modelo para recordar la conversación, sacrificando una cantidad imperceptible de calidad. La GDDR7 de Blackwell lo hace especialmente bien.

Y no se queda en texto. Esta tarjeta es capaz de correr Whisper (el sistema de transcripción de voz de OpenAI, gratuito y open source) para convertir tu voz en texto, Piper para generar voz sintética, y Stable Diffusion XL para crear imágenes. Un pipeline completo de asistente de voz local, sin que un solo byte salga de tu casa.

Comparativa rápida: la RTX 4060 Ti 16GB (la generación anterior con la misma VRAM) ya era funcional para IA local, pero los benchmarks de la comunidad japonesa en warokai.com documentan la diferencia como “impactante” — estamos hablando de entre un 40% y un 70% más de rendimiento en inferencia, dependiendo del modelo.

Cómo empezar

Una vez que tengas la tarjeta instalada físicamente en tu PC y los drivers — el software que permite a Windows o Linux comunicarse con la tarjeta — actualizados desde la web de NVIDIA, el camino más rápido es Ollama.

Primero, descarga e instala Ollama desde ollama.com. En Windows es un instalador normal; en Linux, una sola línea. Después, abre la terminal de tu ordenador (en Windows, busca “PowerShell” en el menú de inicio) y escribe esto para descargar y correr Gemma 4 14B:

ollama run gemma4:14b

Eso es todo. Ollama descarga el modelo (~8 GB), lo carga en la VRAM de tu 5060 Ti, y te abre un chat en la terminal. Escribe cualquier cosa y mira cómo responde a toda velocidad, sin internet, sin suscripciones, sin que tus datos salgan de tu máquina.

Si quieres probar el modelo MoE grande con contexto largo:

ollama run qwen3.5:35b-a3b

Este ocupa más memoria, pero cabe cómodamente en los 16 GB. Puedes pegarle un documento entero y preguntarle sobre él.

Lo que no te van a contar

16 GB de VRAM es el punto dulce hoy, pero no es infinito. Modelos de 70B de parámetros como Llama 4 70B no caben en esta tarjeta sin descargar parte a la RAM del sistema, y cuando eso pasa, la velocidad cae de “conversación fluida” a “espera incómoda”. Si tu trabajo requiere modelos de ese tamaño, necesitas una RTX 5080 o superior. Además, hay un dato que conviene saber: Hardware Corner y otros medios advierten de una posible discontinuación de esta tarjeta por escasez de GDDR7. No está confirmado, pero si llevas semanas dándole vueltas, quizá no conviene esperar mucho. Y un último apunte realista: aunque Ollama hace que arrancar sea fácil, montar pipelines más complejos — RAG (buscar información en tus documentos antes de responder), asistentes de voz, agentes — requiere más tiempo y comodidad con la terminal.

Veredicto

Si quieres correr IA local de verdad — modelos de 14B a velocidad conversacional, contextos largos, voz y generación de imágenes — y no quieres gastarte más de 500 €, esta es la tarjeta. No hay nada que se le acerque en este rango de precio. Si necesitas modelos de 70B o más, te quedas corto: busca más VRAM.