130 € y una tarde: cómo monté un asistente de IA local en una Raspberry Pi que no manda nada a la nube

💡 Antes de empezar Necesitas: Raspberry Pi 5 (cualquier versión), fuente de alimentación oficial de 27W, un destornillador Phillips y conexión a internet para la instalación inicial Tiempo estimado: 1-2 horas (montaje físico + instalación de software) Nivel: Necesitas perder el miedo a la terminal — pero los comandos son copiar y pegar

Le pregunté a una Raspberry Pi quién era y me contestó en medio segundo

Alguien en r/raspberry_pi subió un vídeo hace unas semanas en el que le hacía preguntas a una Raspberry Pi 5 de 80 € con una plaquita encima. La Pi contestaba en voz real, en tiempo real, sin conexión a internet. Sin suscripciones. Sin enviar tus datos a ningún servidor. Esa plaquita es la nueva AI HAT+ 2, y acaba de cambiar las reglas de lo que puedes hacer con un ordenador del tamaño de una tarjeta de crédito.

Qué es exactamente

La Raspberry Pi AI HAT+ 2 es una placa de expansión — un “sombrero” que se enchufa directamente encima de tu Raspberry Pi 5 — que le añade un cerebro dedicado a inteligencia artificial. En su interior lleva el chip Hailo-10H, capaz de realizar 40 TOPS — es decir, 40 billones de operaciones por segundo en tareas de IA, como entender texto o reconocer objetos en una imagen.

Lo que hace especial a esta segunda generación es que trae 8 GB de memoria RAM LPDDR4X propia, dedicada exclusivamente a los modelos de IA. Esto es crucial: los modelos de lenguaje — los LLM, que son los programas que generan texto como ChatGPT — necesitan mucha memoria para funcionar. Con la primera versión del HAT solo podías hacer visión por computador (reconocer caras, detectar objetos). Con esta, puedes correr modelos generativos de verdad: los que conversan, los que razonan, los que transcriben tu voz.

Por qué nos interesa

Aquí es donde la cosa se pone seria. La AI HAT+ 2 es compatible con hailo-ollama, una versión de Ollama — una app gratuita que te permite correr modelos de IA en tu propio ordenador — adaptada para usar el chip Hailo en vez de la CPU de la Pi. Eso significa que no estás forzando al procesador ARM de la Raspberry Pi a hacer un trabajo para el que no está diseñado. El HAT se encarga de todo lo pesado.

¿Qué modelos puedes correr? Los que caben en 8 GB de RAM dedicada, que son más de los que imaginas:

Phi-3 Mini (3.8B parámetros) — el modelo compacto de Microsoft, muy bueno para conversación general
Gemma 2B — el modelo ligero de Google, rápido y sorprendentemente capaz
Qwen 1.5B — el modelo de Alibaba, excelente para tareas en múltiples idiomas
Modelos de hasta 7B parámetros en versiones cuantizadas — es decir, comprimidas para ocupar menos memoria sin perder demasiada calidad

Pero lo que de verdad me voló la cabeza es el pipeline de voz completo. Puedes montar un asistente que funcione así: tú hablas → Whisper (el sistema de transcripción de voz de OpenAI, gratuito y open source) convierte tu voz a texto → el LLM local genera una respuesta → Piper (un motor de síntesis de voz también open source) la lee en alto. Todo esto acelerado en el HAT, sin que la CPU de la Pi se entere. Es como tener un Alexa que no escucha para Amazon, sino solo para ti.

Y hay un detalle para los developers que estén leyendo rápido: soporta fine-tuning con LoRA — una técnica para personalizar un modelo de IA con tus propios datos sin necesidad de reentrenarlo desde cero. Puedes adaptar Phi-3 Mini para que responda sobre tu documentación interna, tu catálogo de productos o lo que necesites.

Cómo empezar

El montaje físico es atornillar cuatro separadores y encajar el HAT en los pines GPIO — los conectores dorados de la parte superior de la Pi, que sirven para comunicarse con accesorios — de tu Raspberry Pi 5. Cinco minutos con destornillador.

La parte de software es donde necesitas la terminal — la ventana donde escribes comandos en tu ordenador. Abre la terminal de tu Raspberry Pi (menú → Accesorios → Terminal) y escribe esto para instalar el backend de Hailo y hailo-ollama:

# Actualiza el sistema e instala el software de Hailo
sudo apt update && sudo apt full-upgrade -y
sudo apt install hailo-all hailo-ollama -y

Después, lanza Ollama con el backend de Hailo y descarga un modelo. Este comando descarga Phi-3 Mini y te abre un chat directo:

# Arranca Ollama usando el chip Hailo y descarga Phi-3 Mini
OLLAMA_BACKEND=hailo ollama run phi3:mini

Si prefieres una interfaz bonita en el navegador en vez del chat en terminal, instala Open WebUI — una interfaz web gratuita que se conecta a Ollama y te da una experiencia tipo ChatGPT. La guía oficial de Raspberry Pi cubre este paso con capturas de pantalla.

Lo que no te van a contar

Esto no es un RTX 4090. Un modelo de 7B parámetros cuantizado va a generar unas 5-10 palabras por segundo — perfectamente usable para un asistente, pero no para generar ensayos largos a toda velocidad. Los modelos más grandes de 13B o 70B parámetros que puedes correr en un PC con GPU dedicada aquí no caben, punto. La latencia del primer token — el tiempo que tarda en empezar a responder — puede ser de 2-3 segundos con modelos más pesados. Y la instalación del stack de Hailo todavía tiene algún edge case con versiones concretas del kernel — el núcleo del sistema operativo — de Raspberry Pi OS, así que asegúrate de actualizar todo antes de empezar. La comunidad está activa y los problemas se resuelven, pero no esperes la experiencia pulida de instalar una app del iPhone.

Veredicto

Si ya tienes una Raspberry Pi 5, por 130 € te llevas una estación de IA generativa local que hace cosas que hace dos años requerían un PC de 1.500 €. Si no tienes la Pi, son ~210 € en total — sigue siendo una ganga para lo que ofrece. No es para ti si esperas velocidad de ChatGPT o quieres correr modelos enormes. Es absolutamente para ti si quieres un asistente privado, un laboratorio de IA en tu escritorio o un proyecto maker que te va a tener enganchado todo el fin de semana.