audio anyone

59 € y un altavoz que por fin te deja hablarle a Home Assistant sin bricolaje raro

Home Assistant Voice Preview Edition es la forma más simple de tener voz local en casa: micrófonos, ESPHome y Assist sin soldar ni imprimir piezas.

ver producto ~59€
59 € y un altavoz que por fin te deja hablarle a Home Assistant sin bricolaje raro

💡 Antes de empezar Necesitas: un Home Assistant ya funcionando, un cable USB-C y una fuente de 5 V / 2 A, porque el cargador no viene en la caja. Si quieres voz totalmente local con lenguaje libre, también te conviene un mini PC decente; la propia documentación recomienda al menos un Intel N100 o equivalente para mover Whisper Base con buena respuesta. Tiempo estimado: 20-30 minutos para dejarlo emparejado, hablar con Assist y probar la primera automatización útil. Nivel: Sin experiencia previa si ya tienes Home Assistant funcionando. Si todavía no tienes servidor, este no es el primer cacharro que deberías comprar.

La voz local suele empezar como un tutorial y terminar como una mudanza

Si te atrae la idea de hablarle a casa sin pasar por Alexa, Google o Siri, te das cuenta enseguida de un problema: la mayor parte de las rutas “locales” empiezan en una placa, siguen por una carcasa impresa, pasan por YAML y acaban en un escritorio lleno de cables.

Eso está muy bien si te apetece el proyecto. Pero si lo que quieres es comprar un cacharro, enchufarlo y comprobar si de verdad vas a usar la voz para algo más que decir “enciende la luz”, necesitas que la parte aburrida ya venga resuelta.

Ahí entra el Home Assistant Voice Preview Edition. No es un asistente que quiera meterte en su jardín vallado. Es justo lo contrario: un punto de entrada para meter voz en Home Assistant sin tener que construir el altavoz desde cero.

Qué compras exactamente

Home Assistant es la plataforma open source más popular para automatización doméstica local: integra dispositivos, escenas y automatizaciones sin obligarte a depender del servidor del fabricante. Voice Preview Edition es su primer hardware oficial dedicado a voz.

La ficha oficial lo coloca en un sitio bastante concreto. Lleva dos micrófonos, un chip XMOS XU316 dedicado al procesamiento de audio, un ESP32-S3 con 16 MB de flash y 8 MB de PSRAM, un altavoz interno, salida de 3,5 mm para conectar un altavoz mejor, mute físico que corta la alimentación de los micros, y un puerto Grove para enganchar sensores o accesorios. Grove es un conector estandarizado muy usado en kits maker porque permite añadir módulos sin soldar.

También importa lo que no intenta ser. No es un altavoz multiroom ni una barra de sonido mini. El altavoz interno está pensado para respuestas de voz y avisos. Si quieres música o audio con más cuerpo, la propia documentación recomienda usar la salida de 3,5 mm con un altavoz externo.

Y luego está el nombre. Lo de “Preview Edition” puede sonar a beta con carcasa bonita, pero la página oficial explica otra idea: hace falta una plataforma de hardware común para que la comunidad mejore la voz abierta y privada en más idiomas. O sea, compras un producto funcional y, al mismo tiempo, un estándar de facto para el ecosistema de Assist.

Cómo lo abrimos

La palabra importante aquí no es “hackear”, sino “abrir”. Se abre porque el firmware viene con ESPHome, la plataforma open source que usa Home Assistant para gestionar dispositivos ESP32 y ESP8266, y porque Nabu Casa publica recursos, esquemas, documentación de desmontaje y soporte para personalizar el aparato.

La apertura empieza por lo básico: puedes usarlo tal cual, con el asistente de Home Assistant, sin pedirle permiso a ningún cloud externo. La web oficial explica tres caminos:

  • Focused Local usa Speech-to-Phrase, un modelo local pensado para frases comunes de control doméstico.
  • Full local usa un motor de voz más general, como Whisper, pero pide más hardware.
  • Home Assistant Cloud descarga la parte pesada del habla a la nube privada de Home Assistant si tu servidor va justo.

Traducido a lenguaje normal: si solo quieres órdenes del tipo “apaga el salón” o “pon un temporizador”, puedes ir muy lejos con procesamiento local enfocado. Si quieres hablar con más naturalidad o transcribir frases abiertas en español, te conviene tener un mini PC con algo más de músculo.

Y aquí es donde el cacharro se vuelve interesante de verdad. La propia documentación de soporte explica cómo tomar control del dispositivo en ESPHome y añadir sensores al puerto Grove. Por ejemplo, puedes conectarle un sensor de temperatura, presión, luz, movimiento o calidad del aire sin soldar. También hay pines GPIO accesibles si abres la carcasa, aunque eso ya entra en terreno de mod y puede anular la garantía.

Qué capa de IA le ponemos encima

La capa útil no es ponerle una voz mona. La capa útil es combinar voz, contexto doméstico e IA local.

En el modo más simple, Voice Preview Edition se queda con Assist: control de luces, temporizadores, listas y consultas sobre dispositivos expuestos en Home Assistant. Ya con eso resuelve algo que mucha gente sí usa todos los días.

El siguiente escalón es meter Whisper y Piper. Whisper es el sistema de reconocimiento de voz que convierte audio en texto; Piper es un motor de texto a voz que devuelve respuestas habladas en local. Si tu servidor tiene potencia suficiente, puedes quitar bastante nube del medio incluso en español.

Luego está el salto bonito: conectar un LLM local. Un LLM es un modelo de lenguaje grande, como los que responden preguntas en lenguaje natural. La página del producto indica que puedes conectar Voice Preview Edition tanto a proveedores populares como a LLMs locales. En la práctica, eso te permite usar el agente nativo de Home Assistant para órdenes claras y reservar el modelo para preguntas más abiertas o resúmenes.

Ejemplos con sentido:

  • “¿Qué se ha quedado encendido antes de dormir?” y que responda cruzando luces, enchufes y sensores.
  • “Resume qué ha pasado hoy en casa” usando eventos locales de puertas, presencia y consumo.
  • “¿Hace falta ventilar?” si al puerto Grove le has añadido un sensor ambiental y Home Assistant sabe qué habitaciones están ocupadas.

La gracia no es presumir de IA en el salón. La gracia es que la voz tenga contexto local real.

Lista de compra

  • Home Assistant Voice Preview Edition.
  • Un servidor con Home Assistant ya funcionando.
  • Cable USB-C y fuente de alimentación de 5 V / 2 A.
  • Si quieres voz libre totalmente local: mini PC con Intel N100 o mejor para Whisper con buena respuesta.
  • Si quieres respuestas habladas locales: Piper en tu servidor Home Assistant.
  • Si quieres convertirlo en un nodo más listo: un sensor Grove compatible, por ejemplo de temperatura o calidad del aire.
  • Opcional: altavoz externo por jack de 3,5 mm si quieres mejor audio que el del altavoz interno.

Lo que no te van a contar

No es un dispositivo autónomo. Sin Home Assistant detrás, esto no hace nada útil. Si vienes de cero absoluto, a veces tiene más sentido empezar por Home Assistant Green y pensar en la voz después.

Tampoco te llevas una experiencia totalmente local de lenguaje libre por 59 € y ya. El propio producto lo explica con claridad: para Whisper local recomiendan al menos un Intel N100 o equivalente, y los idiomas con menos datos pueden pedir modelos aún más pesados. En español puedes tener una experiencia razonable, pero no conviene venderlo como magia instantánea en una Raspberry Pi modesta.

Si lo personalizas con ESPHome, hay un peaje escondido: las actualizaciones automáticas dejan de llegar como antes y pasas a encargarte tú de recompilar y mantener el firmware. No es grave, pero conviene saberlo antes de tocar nada.

Y un último matiz importante: Home Assistant dice abiertamente que el uso de LLMs para control doméstico sigue siendo experimental. Para preguntas abiertas o resúmenes, perfecto. Para automatizar algo delicado, mejor ir con pies de plomo.

Fuentes para verificar antes de comprar

Veredicto

Lo compraría si ya tienes Home Assistant y llevas tiempo queriendo probar voz local sin convertir el salón en un banco de pruebas. Para principiantes es, probablemente, la compra más limpia para empezar. Para la gente más técnica no sustituye un montaje a medida, pero sí te ahorra semanas de bricolaje antes de descubrir si realmente vas a hablarle a casa todos los días.