Phase 3

KI & Sprache

Wake-Word-Erkennung, Sprachsteuerung via Whisper und natürliche Antworten via Piper TTS.

Status: Abgeschlossen

Phase 3 ist vollständig implementiert. Voice läuft als Teil von wundio-core – kein separater Service nötig. Aktivierung per Opt-in in den Einstellungen.

Mindestanforderung: Raspberry Pi 4

Phase 3 benötigt Pi 4 (4 GB) oder besser. Auf Pi 3 ist Echtzeit-STT nicht performant genug und wird daher nicht aktiviert.
01

Whisper STT installieren

Installiert OpenAI Whisper im tiny-Modell (~75 MB). Vollständig lokal – keine Audiodaten verlassen das Netz. Erkennungslatenz auf Pi 4: ca. 1–2 Sekunden pro Satz.
$sudo bash /opt/wundio/scripts/install-whisper.sh
02

Piper TTS einrichten

Schneller lokaler Text-to-Speech. Standard-Stimme: Thorsten (Deutsch). Weitere Stimmen unter github.com/rhasspy/piper.
$sudo bash /opt/wundio/scripts/install-piper.sh
03

Voice in der Web-UI aktivieren

Unter Einstellungen → KI & Sprache das Wake-Word aktivieren. Standard: „Hey Wundio". Der Mikrofon-Status ist live im Dashboard sichtbar.
📷

Screenshot ausstehend

/public/screenshots/settings-voice.jpg

Einstellungen – KI & Sprache, Wake-Word aktivieren
04

Testen

Sprich: „Hey Wundio, lauter" oder „Hey Wundio, nächstes Lied". Erkannte Befehle erscheinen im Aktivitäts-Log im Dashboard.

Logs ansehen

Voice läuft innerhalb von wundio-core. Logs mit dem Prefix [voice]:

$journalctl -u wundio-core -f

Unterstützte Sprachbefehle

Hey Wundio, lauterLautstärke +10%
Hey Wundio, leiserLautstärke −10%
Hey Wundio, nächstes LiedSkip Track
Hey Wundio, zurückPrevious Track
Hey Wundio, pausePause / Play
Hey Wundio, für [Name]Nutzerprofil wechseln
📷

Screenshot ausstehend

/public/screenshots/activity-log-voice.jpg

Aktivitäts-Log – erkannte Sprachbefehle mit [voice]-Prefix

Ollama LLM (Pi 5 only)

Auf Pi 5 mit 8 GB kann zusätzlich ein lokales LLM (llama3.2:3b) installiert werden. Wundio wird damit zum interaktiven Gesprächspartner für Kinder.
$sudo bash /opt/wundio/scripts/install-ollama.sh