PHNETZ - Internetagentur - Peter Höppner

AVS

Abkürzung	Vollform	Kontext	Kurzbeschreibung
AVS	Audio Video Standard (auch AVS‑Codec)	Multimedia‑Kodierung (China)	Ein von der AVS‑Workgroup entwickelter Videocodec (AVS 1, AVS 2, AVS 3) zur effizienten Kompression von HDTV‑ und UHD‑Inhalten, vergleichbar mit H.264/H.265.
AVS	Amazon Voice Service	Cloud‑Sprachservice (AWS)	Plattform von Amazon, die Sprach‑Erkennung, Sprachausgabe (Text‑to‑Speech) und Dialog‑Management über das Internet anbietet. Wird in Echo‑Geräten, Dritt‑Apps und IoT‑Produkten verwendet.

(Im Folgenden wird die Amazon Voice Service‑Version detaillierter behandelt, da sie international verbreiteter ist.)

Client‑Device (z. B. ein Echo‑Lautsprecher, ein Smart‑Home‑Hub oder ein DIY‑Projekt) nimmt Sprachinput über ein Mikrofon‑Array auf.
Audio‑Encoding – Das Audiosignal wird in Opus (44,1 kHz, 16 bit) komprimiert und über HTTPS an den AVS‑Endpoint gesendet.
Spracherkennung (ASR) – Amazon’s Cloud‑ASR‑Engine wandelt das Audio in Text um.
Natural Language Understanding (NLU) – Der Text wird analysiert, Intent und Slots werden ermittelt (z. B. PlayMusicIntent).
Dialog‑Management – AVS entscheidet, welche Aktion ausgeführt wird (Abspielen von Musik, Steuerung von Smart‑Home‑Geräten, Beantworten von Fragen).
Response – Die Antwort wird als Speech Synthesis Markup Language (SSML)‑ausgabe zurück an das Gerät gesendet, wo sie durch Amazon Polly (TTS) in Sprache umgewandelt wird.
Audio‑Playback – Das Gerät gibt die generierte Sprachausgabe über den Lautsprecher wieder und führt ggf. weitere Aktionen aus (z. B. API‑Aufruf).

Komponente	Aufgabe
AVS Device SDK	Bibliothek (C++, Java, Python) für die Kommunikation, Authentifizierung (LWA – Login with Amazon) und Lokale Audio‑Verarbeitung.
AVS APIs	`SpeechRecognizer`, `AudioPlayer`, `DeviceAddress`, `Settings`, `Notifications`, `AlexaPresentation` (für Bildschirme).
Alexa Voice Service Gateway	Cloud‑Endpoint (`https://api.amazon.com/v1/...`) für Request/Response.
Amazon Polly	Text‑to‑Speech‑Engine (mehrere Stimmen, Sprachen, SSML‑Unterstützung).
Amazon Lex / NLU	Intent‑Erkennung und Slot‑Füllung.

OAuth 2.0 – Gerät erhält ein Refresh Token nach einmaliger Nutzer‑Autorisierung.
LBS (Login with Amazon) – ermöglicht Single‑Sign‑On für Amazon‑Konten.

TLS 1.2+ für alle Datenübertragungen.
Sprachdaten‑Retention – Amazon speichert Aufnahmen standardmäßig 30 Tage, Nutzer können die Aufzeichnungen über das Alexa‑App‑Dashboard löschen.
Device‑Security – SDK unterstützt secure boot, TPM‑basiertes Schlüssel‑Management.