Cómo instalar Ollama y correr tu primer modelo de IA en local
Guía paso a paso para instalar Ollama en Mac, Windows o Linux y correr modelos como Llama 3 o Mistral en tu propio ordenador, sin pagar nada.
Ollama es una aplicación gratuita que te permite correr modelos de lenguaje (como Llama 3, Mistral o Phi-3) directamente en tu ordenador, sin depender de internet ni de servicios de pago como ChatGPT.
En esta guía te explico cómo instalarlo y tener tu primer modelo funcionando en menos de 10 minutos.
Qué necesitas antes de empezar
- Un ordenador con al menos 8 GB de RAM (16 GB recomendados)
- Espacio en disco: los modelos ocupan entre 4 y 8 GB cada uno
- Conexión a internet solo para la descarga inicial — después todo funciona sin red
No necesitas saber programar. Si puedes abrir una terminal, puedes hacer esto.
Instalar Ollama
Ve a ollama.com y descarga el instalador para tu sistema. Hay versión para Mac, Windows y Linux.
En Mac y Windows es un instalador normal: descarga, doble clic, siguiente-siguiente-instalar. En Linux, abre la terminal y ejecuta:
curl -fsSL https://ollama.com/install.sh | sh
Este comando descarga y ejecuta el script de instalación oficial. Cuando termine, Ollama estará corriendo en segundo plano como cualquier otra app.
Descargar y correr un modelo
Una vez instalado, abre la terminal (en Mac: Cmd + Espacio → escribe “Terminal”; en Windows: busca “PowerShell”) y escribe:
ollama run llama3.2
Esto descarga el modelo Llama 3.2 de Meta (unos 2 GB) y abre un chat directo en la terminal. Escribe cualquier pregunta y pulsa Enter.
Si prefieres algo más ligero para empezar:
ollama run phi3
Phi-3 de Microsoft es más pequeño (2 GB) y funciona bien incluso con 8 GB de RAM.
Qué puedes hacer con esto
Una vez que tienes Ollama funcionando, puedes:
- Chatear desde la terminal con
ollama run <modelo> - Usar Open WebUI — una interfaz web gratuita que funciona igual que ChatGPT, pero en tu ordenador
- Llamar al modelo desde código — Ollama expone una API local en
http://localhost:11434compatible con la API de OpenAI - Conectarlo a herramientas como Continue (para Visual Studio Code) o LM Studio
Lo que no te van a contar
Los modelos pequeños (los que puedes correr sin una GPU potente) son buenos para conversación general, pero tienen limitaciones claras: no siguen instrucciones complejas tan bien como GPT-4 o Claude, y pueden “alucinar” más en preguntas técnicas específicas.
Si tienes una GPU NVIDIA con al menos 8 GB de VRAM, los modelos irán mucho más rápido. Sin GPU, corren en CPU y la respuesta tarda unos segundos por frase — usable, pero no instantáneo.
Veredicto
Si quieres experimentar con IA local sin gastar dinero ni compartir tus datos con nadie, Ollama es el punto de entrada más sencillo que existe. Para alguien que nunca ha tocado esto, de la descarga al primer chat hay menos de 15 minutos. Para un developer, es la base sobre la que montar cosas más interesantes.