automatizacion anyone

45 € y un navegador: así monté un Alexa local que no espía ni una palabra

El ESP32-S3-BOX-3 se convierte en un asistente de voz local con Home Assistant, Whisper y Piper. Sin nube, sin suscripciones, sin código.

ver producto ~45€
45 € y un navegador: así monté un Alexa local que no espía ni una palabra

💡 Antes de empezar Necesitas: Un ESP32-S3-BOX-3 (~45 €), un ordenador con Home Assistant funcionando (vale un Raspberry Pi 4 o cualquier PC viejo) y WiFi en casa. Tiempo estimado: Entre 30 minutos y una hora, café incluido. Nivel: Sin experiencia previa — solo seguir pasos en el navegador.

El día que Alexa me metió un anuncio entre “enciende la luz” y la luz

Alguien en el foro de Home Assistant lo resumió perfecto: “Alexa ahora tarda más en ponerme publicidad que en encender la lámpara”. No exageraba. En 2026, Amazon ha convertido Echo en un escaparate con modelo de suscripción, y Google ha redirigido sus esfuerzos hacia Gemini dejando el control domótico básico más lento e impredecible. Mientras tanto, más de 17.000 personas ya controlan su casa hablándole a una cajita de 45 € que no envía ni una sola palabra a internet.

Qué es exactamente el ESP32-S3-BOX-3

Es un dispositivo pequeño — del tamaño de un despertador de mesita — fabricado por Espressif, la misma empresa que hace los chips ESP32 que llevan dentro miles de aparatos IoT. Trae pantalla táctil de 2,4 pulgadas, dos micrófonos con cancelación de eco, un altavoz incorporado y conectividad WiFi y Bluetooth. El cerebro es un ESP32-S3, un microcontrolador — un chip diminuto que puede ejecutar programas simples — con suficiente potencia para captar tu voz, enviarla por WiFi a tu servidor local y reproducir la respuesta en tiempo real.

No ejecuta la IA dentro: actúa como satélite de voz. Tú hablas, él escucha y manda el audio por tu red local a Home Assistant — una plataforma gratuita y open source para controlar tu casa inteligente — que es donde ocurre la magia del reconocimiento y la respuesta.

Por qué nos interesa (y por qué ahora)

La pieza clave es que todo el pipeline de voz — desde que dices “enciende la luz del salón” hasta que la luz se enciende — ocurre dentro de tu casa. Ningún servidor externo escucha nada. Esto funciona gracias a dos herramientas gratuitas:

  • Whisper — el sistema de transcripción de voz de OpenAI, open source — convierte lo que dices en texto. Se ejecuta en tu servidor local usando whisper.cpp, una versión optimizada para funcionar en hardware modesto.
  • Piper — un motor de síntesis de voz también open source — convierte el texto de respuesta en una voz que suena natural y sale por el altavoz del BOX-3.

Y aquí viene lo que lo hace realmente potente: puedes añadir un LLM local — un modelo de lenguaje como los que usa ChatGPT, pero corriendo en tu propia máquina — usando Ollama — una app gratuita que te permite correr modelos de IA en tu ordenador sin depender de internet. Con modelos como Qwen 9B o Llama 4, el asistente no solo entiende “enciende la luz”, sino cosas como “cuando llegue a casa, sube la calefacción al 22 y pon música tranquila en el salón”. Eso sí, para el LLM necesitarás algo más potente que un Raspberry Pi — un mini PC con 16 GB de RAM o una GPU dedicada van mucho mejor.

Sin LLM, el sistema cubre perfectamente los comandos directos: luces, termostatos, persianas, enchufes, rutinas. Que es lo que el 90 % de la gente necesita el 90 % del tiempo.

Cómo empezar (sin tocar una línea de código)

Esto es lo bonito del asunto: la instalación del firmware — el software que corre dentro del dispositivo — se hace desde el navegador. Sin terminal — esa ventana negra donde se escriben comandos —, sin instalar nada extra.

Paso 1: Conecta el ESP32-S3-BOX-3 a tu ordenador por USB-C.

Paso 2: Abre Chrome o Edge (tiene que ser uno de estos dos, Firefox no soporta WebSerial) y entra en la página oficial de instalación:

https://www.home-assistant.io/voice_control/s3_box_voice_assistant/

Paso 3: Haz clic en “Connect”, selecciona el dispositivo USB que aparece y pulsa “Install”. En 2-3 minutos se flashea el firmware y el BOX-3 te pedirá la contraseña de tu WiFi desde su propia pantalla.

Paso 4: En Home Assistant, ve a Ajustes → Dispositivos y el BOX-3 aparecerá automáticamente. Asígnalo a tu pipeline de voz — que es la cadena que conecta micrófono → Whisper → procesamiento → Piper → altavoz — y listo.

Si aún no tienes Whisper y Piper corriendo en Home Assistant, se instalan como add-ons desde la tienda integrada. Es hacer clic en “Instalar” y esperar. En un Raspberry Pi 4, Whisper tarda unos 3-5 segundos en transcribir cada frase. En un mini PC reciente, baja a menos de un segundo.

Lo que no te van a contar

Los 3-5 segundos de latencia en un Raspberry Pi 4 son reales y se notan. Dices “apaga la luz” y hay una pausa antes de que pase algo. No es dramático, pero si vienes de un Echo que responde al instante (antes de meterte el anuncio), lo vas a percibir. La solución es usar hardware más potente como servidor — un Intel N100 o similar reduce la espera a algo imperceptible. También: el reconocimiento en español de Whisper es muy bueno, pero no perfecto. Nombres propios raros, marcas inventadas o dialectos muy cerrados le cuestan. Y la voz de Piper en español, aunque ha mejorado mucho, todavía suena un punto robótica comparada con la de Alexa. Es el precio de que todo sea local y gratuito — mejora cada mes, pero hoy no es perfecto.

Veredicto

Si tienes Home Assistant (o quieres empezar), el ESP32-S3-BOX-3 es la forma más barata y sencilla de tener un asistente de voz privado en cada habitación. Si no te importa la privacidad y lo único que quieres es que Alexa te entienda rápido, esto no es para ti — todavía. Pero si estás harto de que tu asistente de voz sea un escaparate publicitario que escucha todo lo que dices, 45 € y media hora es todo lo que necesitas para salir de ahí.