80 dólares y un walkie-talkie de juguete: así montas un asistente de voz local con carácter

💡 Antes de empezar Necesitas: un M5Stack Module LLM Kit, un walkie-talkie de juguete o interfono barato que puedas abrir sin remordimientos, alimentación por USB-C, un destornillador pequeño y ganas de aceptar que el primer prototipo va a quedar más gracioso que elegante. Tiempo estimado: una tarde para dejar una primera demo hablando en local y otra si quieres integrar botones, altavoz y carcasa con algo de mimo. Nivel: Necesitas perder el miedo a la terminal y a abrir una carcasa de plástico. No hay red eléctrica ni firmware raro de fabricante, pero sí configuración, pruebas y algún cable suelto.

El mejor asistente de voz no siempre parece un asistente

La mayoría de cacharros con IA local intentan parecer serios. Una cajita negra, un mini PC discreto, un altavoz neutro que no moleste en el salón. Está bien, pero también es un poco aburrido.

La gracia de este proyecto va por otro lado: coger un objeto que nadie espera que piense, como un walkie-talkie de juguete, y convertirlo en una cosa que escucha, responde y tiene un poco de personalidad. No porque sea la forma más limpia de montar voz local, sino porque de repente la IA deja de ser “otra app” y pasa a vivir en un cuerpo absurdo que sí te apetece enseñar.

El protagonista real no es el juguete. Es el M5Stack Module LLM Kit, un módulo cuadrado con micrófono, altavoz, almacenamiento y un pequeño acelerador de IA pensado para correr reconocimiento de voz, texto a voz y modelos compactos sin depender de la nube.

Qué compras exactamente

Aquí hay un matiz importante antes de sacar la tarjeta. El Module LLM suelto existe, pero la propia tienda oficial lo marca como EOL, es decir, final de vida. La compra razonable hoy no es perseguir esa versión vieja, sino ir al Module LLM Kit, que sigue a la venta y añade la placa LLM Mate para alimentación, depuración y expansión.

Según la ficha oficial, el kit cuesta 79,90 USD, viene con el módulo principal y una placa secundaria, y mete dentro un AX630C con 3.2 TOPS @ INT8, 4 GB LPDDR4, 32 GB eMMC, micrófono, altavoz, wake word, ASR, LLM y TTS. Traducido a lenguaje normal:

wake word es la palabra de activación, el equivalente a “oye, cacharro”.
ASR es reconocimiento de voz: pasar lo que dices a texto.
LLM es el modelo de lenguaje que decide qué responder o qué acción toca.
TTS es texto a voz: convertir la respuesta en audio.

La parte jugosa del kit no es solo que hable. Es que también trae Ethernet 100 Mbps, salida serie por USB-C, compatibilidad con Arduino IDE y un repositorio oficial de modelos y paquetes. Eso lo vuelve mucho más práctico que otros inventos “AI” que quedan bonitos en la caja y luego no sabes por dónde cogerlos.

Cómo lo abrimos

El truco no está en esconder todo dentro de un walkie-talkie desde el minuto uno. El truco está en separar el proyecto en dos capas.

La primera capa es funcional y fea: dejas el Module LLM Kit sobre la mesa, lo alimentas por USB-C, pruebas su pipeline de voz y verificas que puedes disparar una respuesta local. Esa parte te confirma que el cerebro funciona antes de meterlo dentro de nada.

La segunda capa es la divertida: le das un cuerpo. Un walkie-talkie de juguete es buena carcasa porque ya trae un botón lateral perfecto para push-to-talk, una rejilla frontal que parece pedir un altavoz y una forma que tu cerebro ya interpreta como “esto sirve para hablar”. No hace falta que la primera versión quede integrada como un producto final. Puedes empezar con tres decisiones sencillas:

Reutilizar la carcasa solo como envoltorio visual y sacar el audio por el altavoz integrado del kit.
Cablear el botón lateral del walkie-talkie para lanzar una acción concreta, por ejemplo escuchar una orden o repetir el último mensaje.
Usar la radio falsa como personaje, no como interfono serio: respuestas cortas, avisos de casa y frases con intención.

Si quieres ir un poco más allá, el LLM Mate ayuda bastante porque te da una base más cómoda para depurar por USB, sacar red por Ethernet y no pelearte con un módulo desnudo. Para un proyecto raro, eso importa más de lo que parece.

Qué capa de IA le ponemos encima

La demo mala es hacer que el walkie-talkie te suelte respuestas largas como si fuera un chatbot de sobremesa. La demo buena es usar la voz para cosas pequeñas, rápidas y con contexto.

Por ejemplo:

Que te diga si alguien ha llamado a la puerta o si ha llegado un paquete.
Que responda con una frase corta cuando terminas un temporizador en la cocina.
Que se convierta en un “telefonillo” local para Home Assistant y te deje preguntar “¿me he dejado algo encendido?”.
Que tenga dos o tres personalidades: modo serio, modo sarcástico y modo “solo avisos”.

Si metes MQTT en el circuito, el juguete ya puede hablar con más cosas de la casa. MQTT es un protocolo ligero de mensajería muy usado en domótica para pasar eventos entre dispositivos sin montar un castillo de dependencias. El módulo escucha una orden, publica un evento o recibe uno, y contesta.

Ahí es donde el proyecto deja de ser una broma y se vuelve útil. No porque reemplace a un altavoz inteligente bueno, sino porque convierte avisos y automatizaciones en algo más físico. Si el sistema te habla desde un walkie-talkie de juguete, prestas atención. Si sale de otra app, probablemente no.

Lista de compra

M5Stack Module LLM Kit como cerebro principal.
Walkie-talkie de juguete, interfono barato o carcasa parecida con botón lateral.
Cable USB-C y fuente de alimentación estable.
Cables Dupont o cable fino si quieres reaprovechar botones o altavoz.
Cinta de doble cara, separadores o una pieza impresa si te apetece rematar la fijación.
MQTT y Home Assistant si quieres que responda a eventos de la casa en vez de quedarse en demo aislada.

Lo que no te van a contar

Hay dos límites importantes que conviene decir en voz alta.

El primero es comercial. El módulo original suelto ya no es la compra correcta porque está descatalogado en la tienda oficial. El kit actual sí tiene sentido, pero sube el precio y te obliga a asumir que el walkie-talkie es solo la carcasa simpática, no el producto que realmente estás comprando.

El segundo es técnico. La documentación oficial avisa de que los modelos del Module LLM usan un formato específico de AXERA, así que esto no va de bajar cualquier modelo de Hugging Face y meterlo tal cual. Hay un camino soportado, con modelos compatibles y actualizaciones oficiales, pero no es una libertad total.

También hay una limitación práctica: el altavoz integrado sirve para avisos y frases cortas, no para fingir que tienes una radio profesional con voz redonda. Si quieres que el personaje suene mejor, probablemente acabarás ajustando caja acústica, rejilla o un altavoz externo pequeño.

Y por último, este no es el primer proyecto de voz local que recomendaría a alguien que empieza desde cero. Antes montaría un pipeline de voz simple en Home Assistant o en un mini PC. Después, cuando ya sabes qué quieres que diga y cuándo, sí merece la pena darle un cuerpo ridículo.

Fuentes para verificar antes de comprar

Veredicto

Sí compraría este kit para el proyecto, precisamente porque no parece una compra seria y aun así resuelve bastante. El valor no está en tener “otro asistente de voz”, sino en meter una capa de IA local en un objeto que parecía condenado a ser plástico tonto.

Para principiantes absolutos no es la ruta más simple. Para cualquiera que ya haya tocado Home Assistant, MQTT o un poco de audio y quiera construir una demo con carácter, es justo el tipo de cacharro raro que merece un post en cacharrosIA.