AVS
(Im Folgenden wird die Amazon Voice Service‑Version detaillierter behandelt, da sie international verbreiteter ist.)
2. Amazon Voice Service (AVS) – Funktionsweise
- Client‑Device (z. B. ein Echo‑Lautsprecher, ein Smart‑Home‑Hub oder ein DIY‑Projekt) nimmt Sprachinput über ein Mikrofon‑Array auf.
- Audio‑Encoding – Das Audiosignal wird in Opus (44,1 kHz, 16 bit) komprimiert und über HTTPS an den AVS‑Endpoint gesendet.
- Spracherkennung (ASR) – Amazon’s Cloud‑ASR‑Engine wandelt das Audio in Text um.
- Natural Language Understanding (NLU) – Der Text wird analysiert, Intent und Slots werden ermittelt (z. B.
PlayMusicIntent). - Dialog‑Management – AVS entscheidet, welche Aktion ausgeführt wird (Abspielen von Musik, Steuerung von Smart‑Home‑Geräten, Beantworten von Fragen).
- Response – Die Antwort wird als Speech Synthesis Markup Language (SSML)‑ausgabe zurück an das Gerät gesendet, wo sie durch Amazon Polly (TTS) in Sprache umgewandelt wird.
- Audio‑Playback – Das Gerät gibt die generierte Sprachausgabe über den Lautsprecher wieder und führt ggf. weitere Aktionen aus (z. B. API‑Aufruf).
Hauptkomponenten von AVS
Authentifizierung
- OAuth 2.0 – Gerät erhält ein Refresh Token nach einmaliger Nutzer‑Autorisierung.
- LBS (Login with Amazon) – ermöglicht Single‑Sign‑On für Amazon‑Konten.
Sicherheits‑ & Datenschutz‑Hinweise
- TLS 1.2+ für alle Datenübertragungen.
- Sprachdaten‑Retention – Amazon speichert Aufnahmen standardmäßig 30 Tage, Nutzer können die Aufzeichnungen über das Alexa‑App‑Dashboard löschen.
- Device‑Security – SDK unterstützt secure boot, TPM‑basiertes Schlüssel‑Management.
