Cómo instalar Ollama y correr tu primer modelo de IA en local

Ollama es una aplicación gratuita que te permite correr modelos de lenguaje (como Llama 3, Mistral o Phi-3) directamente en tu ordenador, sin depender de internet ni de servicios de pago como ChatGPT.

En esta guía te explico cómo instalarlo y tener tu primer modelo funcionando en menos de 10 minutos.

Qué necesitas antes de empezar

Un ordenador con al menos 8 GB de RAM (16 GB recomendados)
Espacio en disco: los modelos ocupan entre 4 y 8 GB cada uno
Conexión a internet solo para la descarga inicial — después todo funciona sin red

No necesitas saber programar. Si puedes abrir una terminal, puedes hacer esto.

Instalar Ollama

Ve a ollama.com y descarga el instalador para tu sistema. Hay versión para Mac, Windows y Linux.

En Mac y Windows es un instalador normal: descarga, doble clic, siguiente-siguiente-instalar. En Linux, abre la terminal y ejecuta:

curl -fsSL https://ollama.com/install.sh | sh

Este comando descarga y ejecuta el script de instalación oficial. Cuando termine, Ollama estará corriendo en segundo plano como cualquier otra app.

Descargar y correr un modelo

Una vez instalado, abre la terminal (en Mac: Cmd + Espacio → escribe “Terminal”; en Windows: busca “PowerShell”) y escribe:

ollama run llama3.2

Esto descarga el modelo Llama 3.2 de Meta (unos 2 GB) y abre un chat directo en la terminal. Escribe cualquier pregunta y pulsa Enter.

Si prefieres algo más ligero para empezar:

ollama run phi3

Phi-3 de Microsoft es más pequeño (2 GB) y funciona bien incluso con 8 GB de RAM.

Qué puedes hacer con esto

Una vez que tienes Ollama funcionando, puedes:

Chatear desde la terminal con ollama run <modelo>
Usar Open WebUI — una interfaz web gratuita que funciona igual que ChatGPT, pero en tu ordenador
Llamar al modelo desde código — Ollama expone una API local en http://localhost:11434 compatible con la API de OpenAI
Conectarlo a herramientas como Continue (para Visual Studio Code) o LM Studio

Lo que no te van a contar

Los modelos pequeños (los que puedes correr sin una GPU potente) son buenos para conversación general, pero tienen limitaciones claras: no siguen instrucciones complejas tan bien como GPT-4 o Claude, y pueden “alucinar” más en preguntas técnicas específicas.

Si tienes una GPU NVIDIA con al menos 8 GB de VRAM, los modelos irán mucho más rápido. Sin GPU, corren en CPU y la respuesta tarda unos segundos por frase — usable, pero no instantáneo.

Veredicto

Si quieres experimentar con IA local sin gastar dinero ni compartir tus datos con nadie, Ollama es el punto de entrada más sencillo que existe. Para alguien que nunca ha tocado esto, de la descarga al primer chat hay menos de 15 minutos. Para un developer, es la base sobre la que montar cosas más interesantes.