Voice Agent Datenschutz DSGVO: Was Unternehmen wissen müssen

Voice Agents sind im Unternehmenseinsatz angekommen – als automatisierter Kundenservice, als KI-gestützter Telefonassistent, als Buchungs- oder Qualifizierungssystem. Die Technologie funktioniert. Die rechtliche Seite hingegen ist für viele Unternehmen noch ein blinder Fleck.

Das Problem: Wer einen Voice Agent betreibt, verarbeitet zwingend personenbezogene Daten – Stimmen, Gesprächsinhalte, Metadaten. Die DSGVO greift hier vollumfänglich, und die Aufsichtsbehörden haben das Thema zunehmend im Fokus. Wer jetzt ohne solide Datenschutzgrundlage in den Betrieb geht, riskiert nicht nur Bußgelder, sondern auch Abmahnungen, Reputationsschäden und operative Unterbrechungen.

Dieser Artikel richtet sich an Unternehmer und Datenschutzverantwortliche, die Voice Agents einsetzen oder planen einzusetzen. Sie erfahren, was Voice Agent Datenschutz DSGVO konkret bedeutet: Welche Daten entstehen, welche Rechtsgrundlagen greifen, wie Einwilligung korrekt eingeholt wird, was beim Logging zu beachten ist – und welche technischen Maßnahmen Sie umsetzen müssen, bevor der erste Anruf live geht.

Dieser Artikel bietet keine Rechtsberatung. Er liefert fundierte Orientierung für informierte Entscheidungen.

Inhalt ausblenden

1 Was Voice Agents technisch von klassischen Chatbots unterscheidet – und warum das datenschutzrechtlich relevant ist

1.1 Sprache ist keine Textnachricht

1.2 Die technische Architektur eines Voice Agents

1.3 Tool-Stacks in der Praxis

2 DSGVO-Anforderungen für Voice Agents: Die rechtliche Grundstruktur

2.1 Rechtsgrundlage vor dem ersten Anruf klären

2.2 KI-Telefon rechtlich: Was bei eingehenden Anrufen gilt

3 Einwilligung, Logging und Datenspeicherung: Die technische Umsetzung

3.1 Einwilligung korrekt einholen

3.2 Sprachdaten Datenschutz: Was gespeichert werden darf – und wie lange

3.3 Datentransfer in Drittländer: Das US-Problem

4 Voice Agent Compliance: Technische Schutzmaßnahmen nach Stand der Technik

4.1 Privacy by Design und Privacy by Default

4.2 Verzeichnis von Verarbeitungstätigkeiten und DSFA

4.3 Auftragsverarbeitung korrekt regeln

5 Praxis-Beispiele: Häufige Fehler und wie sie vermieden werden

5.1 Beispiel 1: Outbound-Lead-Qualifizierung ohne Rechtsgrundlage

5.2 Beispiel 2: Logging ohne Retention-Policy

5.3 Beispiel 3: Fehlende Transparenz im Inbound-Service

6 Voice Bot DSGVO: Der EU AI Act als zusätzliche Compliance-Ebene

7 Fazit: Voice Agent Datenschutz DSGVO – Wo stehen Unternehmen heute?

8 Häufig gestellte Fragen

8.1 Muss ich einen Voice Agent als KI kennzeichnen?

8.2 Darf ich Telefongespräche mit Voice Agents aufzeichnen?

8.3 Welche Rechtsgrundlage gilt für ausgehende KI-Anrufe (Outbound)?

8.4 Sind US-amerikanische LLM-Anbieter (OpenAI, Azure, Google) DSGVO-konform nutzbar?

8.5 Wann ist eine Datenschutz-Folgenabschätzung (DSFA) für Voice Agents Pflicht?

8.6 Wie lange dürfen Gesprächsprotokolle und Transkripte gespeichert werden?

8.7 Was muss ich beim Einsatz von Voice-Agent-Plattformen wie Vapi oder Retell AI beachten?

Was Voice Agents technisch von klassischen Chatbots unterscheidet – und warum das datenschutzrechtlich relevant ist

Sprache ist keine Textnachricht

Klassische Chatbots verarbeiten Texteingaben. Voice Agents verarbeiten Sprache – und das ist datenschutzrechtlich ein fundamentaler Unterschied. Sprachaufnahmen sind nach Art. 4 Nr. 1 DSGVO personenbezogene Daten, weil sie eine natürliche Person direkt identifizierbar machen. Stimme ist ein biometrisches Merkmal; unter bestimmten Umständen – insbesondere wenn die Stimme zur Identifikation genutzt wird – handelt es sich sogar um besondere Kategorien personenbezogener Daten im Sinne von Art. 9 DSGVO, für die ein erhöhtes Schutzniveau gilt.

Ein Text-Chatbot speichert eine Anfrage wie „Ich brauche Hilfe mit meiner Bestellung“. Ein Voice Agent speichert die Audioaufnahme dieser Aussage – inklusive Stimmlage, Betonung, möglicher Hintergrundgeräusche und allem, was sich daraus ableiten lässt. Die Datenmenge und Sensitivität sind nicht vergleichbar.

Die technische Architektur eines Voice Agents

Ein moderner Voice Agent besteht aus mehreren Komponenten, die jeweils eigene Datenschutzimplikationen haben:

ASR (Automatic Speech Recognition): Wandelt Sprache in Text um. Dabei wird das Rohaudiosignal verarbeitet – oft über externe APIs wie Google Speech-to-Text, Azure Cognitive Services oder OpenAI Whisper.
NLU/LLM (Natural Language Understanding / Large Language Model): Interpretiert den transkribierten Text und generiert eine Antwort. Häufig eingesetzte Anbieter: OpenAI GPT-4, Anthropic Claude, Google Gemini.
TTS (Text-to-Speech): Wandelt die generierte Antwort in synthetische Sprache um. Anbieter: ElevenLabs, Azure Neural Voice, Amazon Polly.
Orchestrierungsschicht: Verbindet die Komponenten, managt Gesprächsfluss, Logging und Weiterleitung. Tools: n8n, Make, LangChain, Vapi, Retell AI.
Telefonie-Integration: SIP-Trunking, Twilio, Vonage oder direkte PBX-Anbindung.

Jede dieser Komponenten kann und wird personenbezogene Daten verarbeiten. Jede erfordert eine eigene datenschutzrechtliche Einordnung. Wenn Sie sich fragen, wo Voice Agents im Vergleich zu textbasierten Lösungen wirklich stärker sind, lohnt sich ein Blick auf den Vergleich Voice Agent vs. Chatbot: Wann Sprache die bessere Wahl ist.

Tool-Stacks in der Praxis

In der DACH-Region sehen typische Voice-Agent-Stacks derzeit so aus:

Komponente	Gängige Tools	Datenschutz-Relevanz
ASR	Whisper (OpenAI), Azure STT, Deepgram	Audiodaten verlassen das Unternehmen
LLM	GPT-4o, Claude 3.5, Gemini	Gesprächsinhalte als Prompts
TTS	ElevenLabs, Azure Neural	Ausgehende Sprachsynthese
Orchestrierung	Vapi.ai, Retell AI, n8n	Logging, Datenspeicherung
Telefonie	Twilio, Vonage, Plivo	Anrufmetadaten, Aufzeichnungen

Für den deutschen und österreichischen Markt gilt: Alle US-amerikanischen Anbieter in dieser Liste erfordern eine sorgfältige Prüfung des Datentransfers in Drittländer (Art. 44 ff. DSGVO).

DSGVO-Rechtsgrundlagen für Voice Agents – Übersicht Einwilligung, Vertragserfüllung, berechtigtes Interesse — Die Wahl der richtigen Rechtsgrundlage entscheidet über die Compliance des gesamten Betriebs.

DSGVO-Anforderungen für Voice Agents: Die rechtliche Grundstruktur

Rechtsgrundlage vor dem ersten Anruf klären

Ohne Rechtsgrundlage ist jede Datenverarbeitung rechtswidrig. Für Voice Agents kommen in der Praxis drei Grundlagen in Betracht:

Art. 6 Abs. 1 lit. b DSGVO – Vertragserfüllung: Greift, wenn der Anruf zur Erfüllung eines bestehenden Vertrags notwendig ist (z.B. Kundenservice zu einer bereits getätigten Bestellung). Achtung: Die Rechtsgrundlage deckt nur das ab, was zur Vertragserfüllung tatsächlich erforderlich ist – nicht mehr.

Art. 6 Abs. 1 lit. f DSGVO – Berechtigtes Interesse: Grundsätzlich anwendbar für Serviceprozesse, erfordert aber eine dokumentierte Interessenabwägung (Legitimate Interest Assessment, LIA). Bei Audioaufnahmen ist diese Abwägung oft zugunsten der betroffenen Person.

Art. 6 Abs. 1 lit. a DSGVO – Einwilligung: Die sicherste Grundlage für Aufzeichnungen und Analysen, aber mit strengen Anforderungen: freiwillig, informiert, spezifisch, unmissverständlich – und jederzeit widerrufbar.

Wichtig: Für die Verarbeitung biometrischer Daten (wenn Stimmerkennung zur Identifikation genutzt wird) ist eine Einwilligung nach Art. 9 Abs. 2 lit. a DSGVO oder ein anderer Ausnahmetatbestand nach Art. 9 Abs. 2 DSGVO erforderlich.

KI-Telefon rechtlich: Was bei eingehenden Anrufen gilt

Ein häufig unterschätztes Problem: Wer ruft an, und weiß die Person, dass sie mit einem KI-System spricht?

Neben der DSGVO gelten auch nationale Vorschriften zum Telekommunikations- und Datenschutz. In Deutschland regelt das Telekommunikation-Digitale-Dienste-Datenschutz-Gesetz (TDDDG), das 2024 das TTDSG abgelöst hat, zusätzliche Anforderungen. In Österreich greifen vergleichbare Bestimmungen insbesondere im Telekommunikationsgesetz (TKG 2021). Grundsätzlich gilt in beiden Ländern: Gesprächsaufzeichnungen erfordern die Einwilligung aller beteiligten Gesprächspartner. In Deutschland ergibt sich dies zudem aus § 201 StGB (Verletzung der Vertraulichkeit des Wortes), während in Österreich entsprechende Regelungen ebenfalls strafrechtlich abgesichert sind.

Für die Praxis bedeutet das: Ansagen zu Beginn des Gesprächs sind nicht optional. Eine rechtskonforme Ansage muss mindestens enthalten:

Den Hinweis, dass das Gespräch aufgezeichnet wird (falls zutreffend)
Den Hinweis, dass ein KI-System das Gespräch führt
Den Zweck der Datenverarbeitung
Die Möglichkeit, zu einem menschlichen Mitarbeiter weitergeleitet zu werden

Die Formulierung „Dieses Gespräch wird zu Qualitätszwecken aufgezeichnet“ reicht nach heutigem Stand nicht mehr aus.

Einwilligung, Logging und Datenspeicherung: Die technische Umsetzung

Einwilligung korrekt einholen

Bei Voice Agents ist die Einwilligung per Sprachbefehl grundsätzlich möglich, aber schwer zu dokumentieren. Die Datenschutzkonferenz (DSK) hat in mehreren Orientierungshilfen betont, dass der Verantwortliche die Einwilligung nachweisen muss – die Beweislast liegt beim Unternehmen (Art. 7 Abs. 1 DSGVO).

Praktisch umsetzbare Ansätze:

Pre-Call-Einwilligung: Der Anrufer bestätigt die Einwilligung über einen Link (SMS oder E-Mail) vor dem Gespräch. Aufwändig, aber rechtlich sauber.
DTMF-Bestätigung: Der Anrufer drückt eine Taste („Drücken Sie 1, um fortzufahren“). Dokumentierbar, aber limitiert in der Informationstiefe.
Sprachbasierte Bestätigung mit Logging: Die Bestätigung wird als Audiosequenz aufgezeichnet und mit Timestamp gespeichert. Technisch komplex, aber rechtlich vertretbar.

Für ausgehende Anrufe (Outbound Voice Agents) gelten strengere Anforderungen. Hier greift zusätzlich § 7 UWG – unverlangte Werbeanrufe sind unzulässig, und der KI-Einsatz ändert daran nichts.

Sprachdaten Datenschutz: Was gespeichert werden darf – und wie lange

Logging ist technisch notwendig – für Debugging, Qualitätskontrolle und Compliance. Datenschutzrechtlich ist es jedoch ein Risikofaktor. Die Grundregel: Nur so viel speichern wie nötig, nur so lange wie erforderlich (Art. 5 Abs. 1 lit. e DSGVO – Speicherbegrenzung).

Typische Logging-Ebenen und ihre Bewertung:

Rohaudio-Aufzeichnungen: Höchste Sensitivität. Sofern nicht zwingend erforderlich, sollten diese nach Transkription unverzüglich gelöscht werden. Maximale Speicherdauer: so kurz wie möglich, mit dokumentierter Begründung für jede Aufbewahrungsdauer.
Transkriptionen: Personenbezogen, aber weniger sensibel als Audio. Aufbewahrungsdauer je nach Zweck – für Servicenachweise oft 30–90 Tage vertretbar.
Metadaten (Anrufzeit, Dauer, Rufnummer): Weniger sensibel, aber dennoch personenbezogen. Aufbewahrung für Abrechnungszwecke nach TKG-Vorgaben.
Anonymisierte/aggregierte Logs: Statistiken ohne Personenbezug – hier gelten die DSGVO-Anforderungen nicht mehr, sofern echte Anonymisierung gewährleistet ist.

Technische Maßnahme: Implementieren Sie in Ihrer Orchestrierungsschicht (n8n, Make oder direkt in Vapi/Retell) automatische Lösch-Workflows mit definierten Retention-Perioden. Manuelle Datenlöschung ist nicht skalierbar und fehleranfällig. Wer n8n bereits für andere Automatisierungen nutzt, findet in unserem Artikel zu KI-Workflows mit n8n für Agenturen konkrete Praxisbeispiele für solche Löschroutinen.

Datentransfer in Drittländer: Das US-Problem

Die meisten leistungsfähigen LLM- und ASR-Anbieter sitzen in den USA. Nach dem Schrems-II-Urteil des EuGH (2020) und dem EU-US Data Privacy Framework (2023) ist der Datentransfer in die USA grundsätzlich wieder möglich – aber nur unter Bedingungen:

Der US-Anbieter muss unter dem Data Privacy Framework zertifiziert sein
Oder es müssen Standardvertragsklauseln (SCC) vereinbart sein
Zusätzlich ist ein Transfer Impact Assessment (TIA) empfohlen

Prüfen Sie für jeden Anbieter in Ihrem Stack: Ist er DPF-zertifiziert? Bietet er EU-Datenhaltung an? OpenAI, Microsoft Azure und Google bieten EU-Regionen an – nutzen Sie diese.

Voice Agent Compliance – technische Schutzmaßnahmen Privacy by Design für DSGVO-konforme KI-Telefonsysteme — Privacy by Design ist keine Option, sondern gesetzliche Pflicht nach Art. 25 DSGVO.

Voice Agent Compliance: Technische Schutzmaßnahmen nach Stand der Technik

Privacy by Design und Privacy by Default

Art. 25 DSGVO schreibt vor, dass Datenschutz von Anfang an in die Systemarchitektur eingebaut sein muss – nicht als Nachgedanke. Für Voice Agents bedeutet das konkret:

Privacy by Design:

Datensparsamkeit als Architekturprinzip: Nur Daten erheben, die für die Funktion notwendig sind
End-to-End-Verschlüsselung für Audiostreams (TLS 1.3 minimum)
Pseudonymisierung von Gesprächsdaten vor Weitergabe an LLM-APIs
Trennung von Metadaten und Gesprächsinhalten in der Speicherarchitektur

Privacy by Default:

Aufzeichnungsfunktion standardmäßig deaktiviert; nur nach aktiver Einwilligung aktiviert
Minimale Logging-Level als Standardeinstellung
Automatische Datenlöschung nach definierten Fristen ohne manuelles Eingreifen

Verzeichnis von Verarbeitungstätigkeiten und DSFA

Jeder Einsatz eines Voice Agents muss im Verzeichnis von Verarbeitungstätigkeiten (VVT) nach Art. 30 DSGVO dokumentiert sein. Das VVT-Eintrag für einen Voice Agent sollte enthalten:

Zweck der Verarbeitung
Kategorien betroffener Personen und Daten
Empfänger (alle Subprozessoren im Stack)
Drittlandtransfers
Löschfristen

Darüber hinaus ist bei Voice Agents mit Aufzeichnungsfunktion oder KI-basierter Analyse in aller Regel eine Datenschutz-Folgenabschätzung (DSFA) nach Art. 35 DSGVO erforderlich. Die Aufsichtsbehörden haben in ihren „Muss-Listen“ explizit auf systematische Überwachung mittels KI hingewiesen.

Auftragsverarbeitung korrekt regeln

Alle Drittanbieter in Ihrem Voice-Agent-Stack, die personenbezogene Daten verarbeiten, müssen als Auftragsverarbeiter nach Art. 28 DSGVO vertraglich gebunden sein. Das gilt für:

ASR-Anbieter (Deepgram, Azure, OpenAI)
LLM-Anbieter (OpenAI, Anthropic, Google)
Voice-Agent-Plattformen (Vapi, Retell AI)
Telefonieanbieter (Twilio, Vonage)
Cloud-Speicher (AWS, Azure, GCP)

Praxis-Problem: Einige LLM-Anbieter bieten AVVs (Auftragsverarbeitungsverträge) nur in kostenpflichtigen Business-Tarifen an. OpenAI zum Beispiel schließt AVVs nur für API-Nutzer mit aktiviertem „Zero Data Retention“-Modus oder Enterprise-Kunden. Prüfen Sie das vor dem Go-live.

Praxis-Beispiele: Häufige Fehler und wie sie vermieden werden

Beispiel 1: Outbound-Lead-Qualifizierung ohne Rechtsgrundlage

Situation: Ein SaaS-Unternehmen setzt einen Voice Agent ein, der Leads aus einem CRM automatisch anruft und qualifiziert. Die Leads haben beim Opt-in einer E-Mail-Kommunikation zugestimmt – nicht einem KI-Telefonanruf.

Problem: Die Einwilligung deckt den Voice-Agent-Anruf nicht ab. Zudem fehlt die Aufzeichnungseinwilligung. Das Unternehmen riskiert Beschwerden bei der Datenschutzbehörde und Unterlassungsansprüche.

Lösung: Opt-in-Prozess erweitern, explizit auf KI-Telefonanrufe hinweisen. Alternativ: Rechtsgrundlage berechtigtes Interesse mit LIA dokumentieren, aber Aufzeichnung ausschalten oder mit gesonderter Einwilligung absichern.

Erkenntnis: Bestehende Einwilligungen decken neue Verarbeitungsformen nicht automatisch ab. Bei jedem neuen Kanal ist die Rechtsgrundlage neu zu prüfen.

Beispiel 2: Logging ohne Retention-Policy

Situation: Ein E-Commerce-Unternehmen betreibt einen Voice Agent für Bestellstatus-Anfragen. Die Plattform (Vapi) loggt standardmäßig alle Gesprächstranskripte unbegrenzt. Nach 18 Monaten befinden sich Tausende von Kundengesprächen in der Cloud – ohne Löschkonzept.

Problem: Verstoß gegen Art. 5 Abs. 1 lit. e DSGVO (Speicherbegrenzung). Im Falle einer Datenpanne wäre der Schaden erheblich.

Lösung: Automatische Löschworkflows in der Orchestrierungsschicht einrichten. Vapi und Retell AI bieten Webhook-Callbacks nach Gesprächsende – diese können genutzt werden, um Transkripte nach Verarbeitung in eigener Infrastruktur zu löschen oder zu anonymisieren.

Erkenntnis: Standardeinstellungen von Voice-Agent-Plattformen sind selten datenschutzkonform. Jede Plattformkonfiguration muss aktiv auf DSGVO-Konformität geprüft werden. Ähnliche Sicherheitsfragen stellen sich übrigens auch beim Betrieb von selbst gehosteten KI-Agenten und deren Absicherung.

EU AI Act Transparenzpflichten für Voice Bots DSGVO – KI-Kennzeichnungspflicht ab 2026 — Der EU AI Act ergänzt die DSGVO: KI-Systeme mit Menscheninteraktion müssen sich ab August 2026 als solche kenntlich machen.

Beispiel 3: Fehlende Transparenz im Inbound-Service

Situation: Ein Versicherungsmakler ersetzt seinen Telefonempfang durch einen Voice Agent. Der Agent stellt sich mit „Hallo, mein Name ist Sophie, wie kann ich Ihnen helfen?“ vor – ohne Hinweis auf den KI-Charakter.

Problem: Verstoß gegen Art. 13 DSGVO (Informationspflichten), möglicherweise auch gegen kommende KI-Verordnung (EU AI Act, Art. 52 – Transparenzpflichten für KI-Systeme mit Menscheninteraktion). In Deutschland zusätzlich potenziell wettbewerbsrechtlich relevant (Täuschung über Gesprächspartner).

Lösung: Klare Identifikation als KI-System in der Begrüßungsansage. „Sie sprechen mit unserem KI-Assistenten. Wie kann ich Ihnen helfen?“ – kurz, klar, compliant.

Erkenntnis: Der EU AI Act schreibt ab 2025/2026 explizit vor, dass KI-Systeme, die mit Menschen interagieren, sich als solche kenntlich machen müssen. Das deckt sich mit bestehenden DSGVO-Anforderungen.

Voice Bot DSGVO: Der EU AI Act als zusätzliche Compliance-Ebene

Neben der DSGVO tritt mit dem EU AI Act eine neue Regulierungsebene in Kraft. Für Voice Agents relevant:

Art. 52 EU AI Act (Transparenzpflichten): KI-Systeme, die direkt mit Menschen interagieren, müssen diese darüber informieren, dass sie mit einem KI-System kommunizieren – es sei denn, das ist aus dem Kontext offensichtlich.
Risikoklassifizierung: Die meisten kommerziellen Voice Agents fallen als „Limited Risk“-Systeme unter Art. 52, nicht als Hochrisiko-KI. Das bedeutet: geringere Anforderungen, aber die Transparenzpflicht gilt trotzdem.
Zeitplan: Die Transparenzpflichten nach Art. 52 gelten ab August 2026 verbindlich. Unternehmen, die jetzt Voice Agents implementieren, sollten die Anforderungen bereits einplanen.

Wer Voice Agents im Kundenservice plant, sollte zusätzlich prüfen, welche Prozesse sich realistisch automatisieren lassen – unser Artikel zu Voice Agents im Kundenservice: Was sich automatisiert gibt einen praxisnahen Überblick.

Fazit: Voice Agent Datenschutz DSGVO – Wo stehen Unternehmen heute?

Voice Agents sind kein Datenschutz-Minenfeld – aber sie erfordern sorgfältige Vorbereitung. Die wesentlichen Erkenntnisse:

1. Rechtsgrundlage zuerst. Bevor der erste Anruf live geht, muss die Rechtsgrundlage für jede Verarbeitungsoperation dokumentiert sein. Insbesondere für Aufzeichnungen ist die Einwilligung in aller Regel der sicherste Weg.

2. Der Stack ist der blinde Fleck. Jeder Anbieter im Tech-Stack ist ein potenzieller Auftragsverarbeiter. AVVs, DPF-Zertifizierungen und EU-Datenhaltung müssen vor Go-live geprüft sein.

3. Logging ist kein Nebenthema. Automatische Retention-Policies und Löschworkflows müssen technisch implementiert sein – manuelle Prozesse skalieren nicht und sind fehleranfällig.

4. EU AI Act kommt. Die Transparenzpflichten für KI-Systeme mit Menscheninteraktion gelten ab August 2026. Wer jetzt aufbaut, sollte die Anforderungen direkt einplanen.

Handlungsempfehlung: Fangen Sie mit einem internen Audit an: Welche Daten verarbeitet Ihr Voice Agent, wo werden sie gespeichert, welche Anbieter sind involviert, und welche Einwilligungen haben Sie aktuell? Dieser Datenmappingprozess ist die Grundlage für alles weitere – und deckt in der Praxis fast immer Lücken auf.

Dieser Artikel hat Grenzen: Er ersetzt keine Rechtsberatung. Bei konkreten Implementierungsfragen konsultieren Sie einen auf IT-Recht und Datenschutz spezialisierten Anwalt sowie Ihren Datenschutzbeauftragten.

Häufig gestellte Fragen

Muss ich einen Voice Agent als KI kennzeichnen?

Ja. Nach Art. 13 DSGVO bestehen Informationspflichten gegenüber betroffenen Personen. Zusätzlich schreibt Art. 52 EU AI Act (gültig ab August 2026) explizit vor, dass KI-Systeme, die mit Menschen interagieren, sich als solche kenntlich machen müssen. In Deutschland kommt hinzu, dass eine Täuschung über den Gesprächspartner wettbewerbsrechtlich und strafrechtlich relevant sein kann (§ 201 StGB, UWG). Praktisch: Eine kurze Ansage zu Gesprächsbeginn – „Sie sprechen mit unserem KI-Assistenten“ – ist ausreichend und rechtlich notwendig.

Darf ich Telefongespräche mit Voice Agents aufzeichnen?

Aufzeichnungen erfordern die Einwilligung beider Gesprächsparteien – das ergibt sich aus § 201 StGB und der DSGVO. Die Einwilligung muss vor Beginn der Aufzeichnung eingeholt werden, klar formuliert sein und dokumentiert werden. Eine allgemeine Ansage „dieses Gespräch wird aufgezeichnet“ ohne aktive Bestätigung ist rechtlich umstritten. Sicherer ist eine DTMF-Bestätigung (Tastendruck) oder eine Pre-Call-Einwilligung per E-Mail/SMS-Link. Die Aufzeichnungseinwilligung muss getrennt von der allgemeinen Datenschutzerklärung eingeholt werden.

Welche Rechtsgrundlage gilt für ausgehende KI-Anrufe (Outbound)?

Für Outbound-Anrufe zu Werbezwecken ist nach § 7 UWG eine ausdrückliche Einwilligung erforderlich – das gilt unabhängig davon, ob ein Mensch oder ein KI-System anruft. Bestandskunden können unter engen Voraussetzungen auf Basis berechtigten Interesses kontaktiert werden („Soft Opt-in“), aber nur für ähnliche Produkte und mit klarer Widerspruchsmöglichkeit. Bestehende E-Mail-Einwilligungen decken Telefonanrufe nicht automatisch ab. Für reine Servicekommunikation kann Art. 6 Abs. 1 lit. b DSGVO greifen.

Sind US-amerikanische LLM-Anbieter (OpenAI, Azure, Google) DSGVO-konform nutzbar?

Grundsätzlich ja, aber mit Bedingungen. Seit dem EU-US Data Privacy Framework (2023) ist der Datentransfer in die USA auf stabiler Rechtsgrundlage möglich – vorausgesetzt, der Anbieter ist DPF-zertifiziert. OpenAI, Microsoft Azure und Google sind zertifiziert. Zusätzlich muss ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO abgeschlossen sein. Für maximale Rechtssicherheit EU-Datenhaltungsregionen nutzen. Bei sensiblen Daten ist ein Transfer Impact Assessment (TIA) zu dokumentieren.

Wann ist eine Datenschutz-Folgenabschätzung (DSFA) für Voice Agents Pflicht?

In vielen Fällen ja. Eine DSFA nach Art. 35 DSGVO ist erforderlich, wenn die Verarbeitung voraussichtlich ein hohes Risiko birgt. Für Voice Agents sind folgende Faktoren relevant: systematische Verarbeitung von Sprachdaten (biometrische Daten), KI-basierte Analyse von Gesprächsinhalten, große Mengen betroffener Personen sowie automatisierte Entscheidungsfindung. Die Aufsichtsbehörden haben KI-basierte Kommunikationssysteme mehrfach in ihren Risikolisten erwähnt. Im Zweifel: DSFA durchführen. Eine unnötige DSFA ist kein Fehler – eine fehlende schon.

Wie lange dürfen Gesprächsprotokolle und Transkripte gespeichert werden?

Es gibt keine einheitliche gesetzliche Frist, aber das Prinzip der Speicherbegrenzung (Art. 5 Abs. 1 lit. e DSGVO) verlangt, dass Daten nur so lange gespeichert werden, wie es für den jeweiligen Zweck erforderlich ist. Orientierungswerte: Rohaudioaufnahmen nach Transkription unverzüglich löschen (maximal wenige Stunden). Transkripte für Qualitätszwecke: 30–90 Tage. Transkripte als Servicenachweis bei Beschwerden: 1–2 Jahre. Für jede Kategorie muss eine dokumentierte Begründung vorliegen. Automatische Löschroutinen sind Pflicht.

Was muss ich beim Einsatz von Voice-Agent-Plattformen wie Vapi oder Retell AI beachten?

Plattformen wie Vapi.ai oder Retell AI sind Auftragsverarbeiter im Sinne von Art. 28 DSGVO. Sie müssen mit ihnen einen AVV abschließen – prüfen Sie, ob dieser in Ihrem Tarif enthalten ist. Zudem sollten Sie die Standardlogging-Einstellungen prüfen: Beide Plattformen loggen standardmäßig Transkripte und teils Audioaufnahmen. Diese Einstellungen müssen aktiv konfiguriert werden. Prüfen Sie auch, wo Daten gespeichert werden (US vs. EU) und ob eine DPF-Zertifizierung vorliegt. Webhook-Callbacks nach Gesprächsende können genutzt werden, um Daten automatisch in eigener Infrastruktur zu verarbeiten und auf den Plattformen zu löschen.

Voice Agent Datenschutz DSGVO: Was Unternehmen wissen müssen