guías

Cómo instalar y usar Ollama: guía completa para Mac, Windows y Linux

Instala Ollama en tu ordenador y empieza a correr modelos de IA en local. Guía paso a paso para Mac, Windows y Linux, desde cero y sin pagar nada.


Ollama es una aplicación gratuita que te permite correr modelos de lenguaje grandes (lo que la gente llama “IA” o “modelos tipo ChatGPT”) directamente en tu ordenador, sin depender de internet ni de servicios de pago.

Cuando usas ChatGPT, tu texto viaja a los servidores de OpenAI, se procesa allí y vuelve. Con Ollama, el modelo vive en tu máquina y funciona aunque no tengas conexión. Sin suscripciones, sin límites de uso, sin que nadie vea lo que escribes.

En esta guía te explico cómo instalarlo en Mac, Windows o Linux, qué modelo elegir según tu hardware, y cómo empezar a usarlo.

Qué necesitas antes de empezar

  • RAM: mínimo 8 GB para los modelos más pequeños, 16 GB para buena experiencia
  • Espacio en disco: los modelos ocupan entre 2 y 8 GB cada uno
  • Sistema operativo: Mac (macOS 11 o posterior), Windows 10/11, o Linux
  • Saber abrir una terminal — en Mac: Cmd + Espacio → escribe “Terminal”; en Windows: busca “PowerShell” en el menú de inicio

No necesitas saber programar para seguir esta guía.

Sobre la GPU: Si tienes una tarjeta gráfica NVIDIA con 8 GB o más de VRAM, Ollama la usará automáticamente y los modelos responderán mucho más rápido. Si no, funcionan en la CPU del ordenador — algo más lento pero perfectamente usable. Los Mac con chip Apple Silicon (M1, M2, M3, M4) tienen un caso especial: su memoria unificada (la RAM que comparten CPU y GPU) hace que sean muy buenos para esto aunque no tengan una GPU dedicada.


Instalar Ollama en Mac

Ve a ollama.com y descarga el instalador para Mac. Es un archivo .dmg estándar: doble clic, arrastras la app a Aplicaciones, y ya está.

Una vez instalado, Ollama aparece como un icono en la barra de menú superior. Cuando está activo, el servidor local arranca automáticamente en segundo plano. No hay nada más que configurar.


Instalar Ollama en Windows

En Windows el proceso es igual de sencillo. Ve a ollama.com, descarga el instalador .exe y ejecútalo. Siguiente, siguiente, instalar — igual que cualquier programa.

Ollama aparecerá en la bandeja del sistema (abajo a la derecha, en el área de notificaciones). Si no lo ves, busca la flecha para mostrar iconos ocultos.

Nota importante en Windows: Ollama instala un servicio que se ejecuta en segundo plano. La primera vez que abras PowerShell para usarlo, es posible que Windows Defender o el antivirus te pida confirmar que confías en la app. Es normal — acéptalo.

Para usar la GPU NVIDIA en Windows, asegúrate de tener los drivers actualizados. Ollama los detecta automáticamente si están al día. Si tienes una tarjeta AMD o Intel Arc, también hay soporte experimental.


Instalar Ollama en Linux

Abre la terminal y ejecuta:

curl -fsSL https://ollama.com/install.sh | sh

Este comando descarga y ejecuta el script de instalación oficial. Cuando termine, Ollama estará corriendo como un servicio del sistema. Si tienes GPU NVIDIA, instala los drivers CUDA y Ollama los usará automáticamente.


Qué modelos existen y cuál elegir

Ollama tiene una biblioteca de modelos en ollama.com/library. Los nombres más importantes que verás:

ModeloTamañoPara qué vale
llama3.2~2 GBEl punto de entrada. Bueno para chat general y tareas simples.
llama3.1~4–8 GBMás capaz. Soporta llamadas de herramienta.
mistral~4 GBMuy bueno en español e instrucciones largas.
phi3~2 GBUltra ligero, para ordenadores con poca RAM.
qwen2.52–8 GBExcelente en múltiples idiomas y código.
gemma3~3–9 GBEl modelo de Google, bueno para razonamiento.

Si tienes 8 GB de RAM: empieza con llama3.2 o phi3. Si tienes 16 GB o más: prueba llama3.1 o mistral. Si tienes GPU con 8+ GB de VRAM: llama3.1:8b o mistral correrán rápido.


Usar Ollama desde la terminal

Para descargar un modelo y abrirlo en modo chat directo, abre PowerShell (Windows) o la Terminal (Mac/Linux) y escribe:

ollama run llama3.2

La primera vez descarga el modelo (tarda unos minutos según tu conexión). Después abre un chat interactivo. Escribe cualquier cosa y pulsa Enter:

>>> Explícame qué es una API en dos frases simples
Una API es una interfaz que permite que dos programas se comuniquen entre sí...

Para salir del chat, escribe /bye o pulsa Ctrl + D.

Otros comandos útiles

# Ver los modelos que tienes descargados
ollama list

# Descargar un modelo sin abrirlo
ollama pull mistral

# Borrar un modelo para liberar espacio
ollama rm phi3

# Ver qué modelos están activos en memoria
ollama ps

Open WebUI: la interfaz tipo ChatGPT

Escribir en la terminal está bien para probar, pero si quieres una experiencia más cómoda existe Open WebUI — una interfaz web gratuita que funciona igual que ChatGPT, pero corriendo en tu ordenador.

Necesitas tener Docker instalado. Si no lo tienes, descárgalo en docker.com (es gratis). Luego abre la terminal y ejecuta:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Después abre el navegador en http://localhost:3000. La primera vez te pide crear una cuenta local (solo se guarda en tu ordenador). Desde ahí puedes chatear con cualquier modelo que tengas descargado en Ollama, ver el historial de conversaciones y subir documentos.


Llamar al modelo desde código

Ollama expone una API local en http://localhost:11434 que es compatible con la API de OpenAI. Esto significa que cualquier herramienta o script pensado para OpenAI puede apuntar a tu Ollama local cambiando la URL.

Con curl desde la terminal:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2",
    "prompt": "¿Qué es Home Assistant?",
    "stream": false
  }'

Con Python, usando la librería oficial:

pip install ollama
import ollama

respuesta = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '¿Qué es Home Assistant?'}]
)
print(respuesta.message.content)

Si quieres que el modelo pueda hacer cosas concretas (consultar APIs, ejecutar funciones), el siguiente paso es aprender las llamadas de herramienta — está explicado en la guía Cómo usar llamadas de herramienta en Ollama.


Lo que no te van a contar

Los modelos pequeños que puedes correr sin GPU son capaces de conversación general y tareas cotidianas, pero tienen límites claros. No razonan igual de bien que GPT-4o o Claude en tareas complejas, pueden equivocarse en cálculos o preguntas técnicas muy específicas, y a veces “alucinan” — inventan datos con mucha seguridad.

En Windows, el rendimiento puede ser algo inferior al de Mac con Apple Silicon para el mismo modelo, especialmente en CPU. Si tienes una GPU NVIDIA reciente, la diferencia desaparece.

Los modelos corren bien aunque el ordenador no sea de gama alta, pero necesitan RAM libre. Si tienes otras aplicaciones pesadas abiertas (navegador con 40 pestañas, Photoshop, etc.), pueden ir más lentos.


Veredicto

Si quieres tener un asistente de IA en tu ordenador sin depender de nadie, Ollama es el camino más directo. Funciona en Mac, Windows y Linux, la instalación es trivial, y en menos de 15 minutos puedes estar chateando con Llama o Mistral completamente en local.

Para proyectos de automatización del hogar, el paso siguiente es explorar cómo conectar Ollama a Home Assistant o darle herramientas para que pueda tomar decisiones — eso ya entra en el terreno de las llamadas de herramienta.