"Dis Siri, allume le couloir". "Ok Google, ferme les volets du salon". "Alexa, baisse le chauffage".

Pour le grand public, la domotique se résume souvent à ces quelques phrases prononcées à voix haute en direction d'un petit cylindre en plastique posé sur le buffet du salon. Les publicités des géants de la technologie nous ont convaincus que le summum de l'habitation du futur consistait à parler aux murs.

C'est effectivement très amusant les premières semaines. C'est l'effet démonstration par excellence. Mais rapidement, le quotidien reprend ses droits. Vous rentrez tard le soir, les enfants dorment, et vous devez murmurer votre ordre à votre enceinte connectée dans l'espoir qu'elle vous comprenne du premier coup sans réveiller toute la maison. Vous êtes en pleine conversation avec des amis au moment du dîner, et vous devez interrompre votre phrase pour ordonner à la maison de baisser l'intensité lumineuse.

Baser l'ergonomie de sa maison intelligente sur les commandes vocales est une aberration. C'est lent, intrusif, socialement inadapté, et techniquement très faillible.

La friction de l'interface vocale

En ingénierie de l'expérience utilisateur (UX), on cherche toujours à réduire le nombre d'étapes (la "friction") pour accomplir une action. L'interface parfaite est celle qui demande le moins d'effort cognitif et physique.

Comparons l'acte d'allumer une lumière :

La méthode traditionnelle (Bouton mural) :

  1. Votre main frappe l'interrupteur en passant la porte, par réflexe musculaire (0 seconde d'effort cognitif). La lumière s'allume instantanément.

La méthode vocale (Assistants connectés) :

  1. Vous devez vous souvenir du mot de déclenchement (Wake word).
  2. Vous devez vous souvenir du nom exact que vous avez donné à la lampe dans l'application ("Lumière Plafonnier Salon" et non "Lampe du canapé").
  3. Vous formulez votre phrase à voix haute.
  4. L'enceinte enregistre votre voix.
  5. L'enceinte envoie l'enregistrement audio sur des serveurs aux États-Unis pour être analysé par une IA.
  6. Le serveur comprend l'ordre et le renvoie vers votre domicile.
  7. La lumière s'allume avec un délai de 1 à 3 secondes.

L'interface vocale rajoute une complexité cognitive, une dépendance à internet, et un délai d'exécution insupportable pour une action aussi banale qu'allumer une ampoule. Quand la technologie est plus lente que l'humain, elle devient un gadget inutile.

L'enfer social et le WAF (Wife Acceptance Factor)

L'utilisation de la voix est un acte socialement chargé. Parler seul dans une pièce vide peut passer. Interrompre une discussion de couple ou un dîner de famille pour aboyer des ordres à un objet inanimé est rapidement perçu comme impoli ou agaçant par les autres membres du foyer.

C'est l'un des facteurs principaux qui détruisent le WAF (l'acceptation de la domotique par votre famille). Si votre conjoint(e) a mal à la gorge, s'il y a de la musique forte dans la pièce, ou si le bébé vient de s'endormir, l'interface vocale devient tout simplement inutilisable.

De plus, l'enceinte intelligente pose un problème de permissions d'accès. N'importe quel invité (ou enfant farceur) peut crier "Alexa, éteins toute la maison" ou "Ok Google, ouvre la porte de garage" s'il n'y a pas de contrôle vocal strict mis en place. La sécurité par la voix est par nature extrêmement faible.

L'incompréhension et la dépendance au Cloud

Toute personne possédant un assistant vocal a déjà vécu ce grand moment de solitude technologique : Vous : "Ok Google, éteins la chambre". L'enceinte : "D'accord, je mets de la musique d'ambiance sur Spotify."

Les assistants vocaux grand public ne comprennent pas le sens, ils analysent des mots-clés. S'il y a un bruit de fond, un accent un peu prononcé, ou si le serveur d'analyse rencontre un ralentissement, l'ordre est mal interprété ou complètement ignoré.

Surtout, comme nous l'avons expliqué dans notre dossier sur les dangers de la domotique Cloud, ces enceintes sont de simples microphones reliés à internet. Si votre fournisseur d'accès internet rencontre une panne, votre enceinte devient un presse-papier inutile. Vous vous retrouvez dans l'incapacité d'allumer vos lumières simplement parce que la fibre optique de votre quartier a été endommagée.

La place légitime de la voix : L'action complexe

La conclusion de ce constat n'est pas qu'il faut jeter vos enceintes connectées par la fenêtre. Elles ont une utilité indéniable, mais il faut les reléguer à leur juste place dans l'architecture de votre maison.

La commande vocale est excellente pour déclencher des actions complexes ou des scènes regroupées, c'est-à-dire des choses qui vous demanderaient un effort énorme de réaliser manuellement.

Les bons usages de la commande vocale :

  • "Active le mode Soirée Cinéma" : Une seule phrase qui va baisser les volets, allumer le bandeau LED derrière la télévision, couper le plafonnier et allumer l'amplificateur audio.
  • "Je pars de la maison" : Une phrase prononcée en enfilant son manteau qui va couper toutes les lumières, baisser le chauffage de 3 degrés, et armer l'alarme avec un délai de 60 secondes.
  • "Mets un minuteur de 10 minutes pour les pâtes" : Une action mains libres typique et irremplaçable dans une cuisine.

Dans ces cas précis, la voix est plus rapide que de chercher son téléphone ou de faire le tour de la maison pour appuyer sur cinq boutons différents. L'interface vocale devient une télécommande globale, et non un simple interrupteur.

L'alternative locale : Les assistants vocaux open source

Si vous souhaitez conserver le contrôle vocal sans subir la dépendance au cloud de Google ou d'Amazon (ni leurs indiscrétions concernant votre vie privée), le marché a enfin une alternative crédible.

Grâce à la puissance des superviseurs domotiques locaux comme Home Assistant, il est désormais possible de créer son propre assistant vocal privé (le projet Assist ou Rhasspy).

Le principe est révolutionnaire : le microphone enregistre votre voix, l'envoie à votre petit ordinateur local branché dans le salon (le Raspberry Pi), qui effectue lui-même la transcription vocale (Speech-to-Text) et l'analyse de l'intention grâce à des petits modèles d'Intelligence Artificielle locaux, sans aucune connexion internet.

La réponse est instantanée, vos enregistrements audio ne quittent jamais les murs de votre domicile, et même si la fibre internet mondiale est coupée, votre maison locale continuera de comprendre et d'exécuter vos commandes vocales.

Le verdict : La voix est un bonus, pas la fondation

L'architecture parfaite d'une maison intelligente repose sur une pyramide d'interfaces.

À la base de la pyramide, pour 80% des usages, se trouvent les automatisations invisibles (les capteurs de présence mmWave et les programmations horaires). Au milieu de la pyramide, pour 15% des usages, se trouvent les boutons physiques (les micromodules encastrés) pour reprendre le contrôle immédiat en cas de besoin. Au sommet de la pyramide, pour les 5% restants, se trouve l'interface vocale ou l'application smartphone, réservées aux ajustements complexes et aux scènes globales.

Si vous devez parler pour allumer la lumière de vos toilettes, vous n'avez pas construit une maison intelligente. Vous avez simplement remplacé un interrupteur en plastique fiable par un microphone capricieux. Pensez automatisation d'abord, interface physique ensuite, et gardez la voix pour le fun.