KI-gestütztes Finanzberatungssystem auf Tablet mit neuronaler Netzwerkvisualisierung, Hände interagieren mit Compliance-Dashboard für Haftungsdach nach AI Act und MiFID II

Beratung mit KI-Assistenz: Haftungsfragen, Dokumentation und Qualitätskontrolle

Large Language Models (LLMs) halten Einzug in die Finanzberatung unter Haftungsdach-Strukturen und versprechen Effizienzgewinne bei gleichzeitig sinkenden Fehlerquoten. Die Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin) beobachtet diese Entwicklung aufmerksam und hat bereits klargestellt, dass KI-Systeme mit begrenztem Risiko wie Chatbots oder generative KI unter Transparenzpflichten fallen. Der seit August 2024 geltende EU AI Act schafft einen verbindlichen Rahmen, der ab Februar 2025 schrittweise greift und Finanzdienstleister zur Sicherstellung von KI-Kompetenz verpflichtet.

Für Haftungsdach-Anbieter stellt sich die Frage, wie LLMs rechtskonform eingesetzt werden können, ohne die bestehenden Haftungsstrukturen zu gefährden. Die Verantwortung für KI-gestützte Beratungsprozesse liegt gemäß Paragraph 2 Absatz 10 KWG beim Haftungsdach, selbst wenn die technische Infrastruktur von Drittanbietern stammt. Diese Haftungskonzentration erfordert robuste Governance-Strukturen und klare Dokumentationsprozesse, die den Anforderungen von MiFID II genügen.

Wo LLMs tatsächlich Mehrwert schaffen: Anwendungsfelder in der Praxis

Digitales Onboarding und Eignungsprüfung

Der Kundenzugang stellt einen natürlichen Einsatzbereich für LLM-gestützte Systeme dar. Moderne Chatbots können Neukunden durch den initialen Fragenkatalog führen, der nach MiFID II für die Geeignetheitsprüfung erforderlich ist. Dabei erfassen sie systematisch Informationen zu Anlagezielen, Risikobereitschaft, Anlageerfahrung und finanzieller Situation. Im Gegensatz zu standardisierten Webformularen können LLMs die Fragen kontextabhängig anpassen und bei unklaren Antworten nachfragen.

Ein konkretes Beispiel aus der Praxis zeigt jedoch die Grenzen dieser Technologie. Ein mittelgroßer Haftungsdach-Anbieter testete 2024 ein GPT-basiertes Onboarding-System und stellte fest, dass 23 Prozent der erfassten Eignungsprofile bei manueller Nachprüfung Inkonsistenzen aufwiesen. Kunden hatten sich beispielsweise als risikoavers mit Fokus auf Kapitalerhalt eingestuft, gleichzeitig aber Interesse an Kryptowährungen und Hebelprodukten bekundet. Das LLM hatte diese Widersprüche nicht erkannt oder nicht adäquat hinterfragt.

Die daraus resultierende Erkenntnis lautet, dass LLMs im Onboarding derzeit am sinnvollsten als assistierendes System mit obligatorischer menschlicher Überprüfung fungieren. Der Berater erhält einen KI-vorbereiteten Eignungsentwurf, muss diesen aber im persönlichen Gespräch oder Telefon validieren. Diese hybride Vorgehensweise reduziert den Zeitaufwand um durchschnittlich 40 Prozent, während die Qualität der Eignungsprüfung gleichzeitig steigt, da offensichtliche Widersprüche bereits vor dem Beratungsgespräch identifiziert werden.

Produktinformation und Aufklärungspflichten

Die Vermittlung komplexer Produktinformationen bildet ein weiteres Kernfeld für LLM-Anwendungen. Nach MiFID II müssen Finanzdienstleister vor Vertragsabschluss umfassend über Kosten, Risiken und Produktmerkmale aufklären. LLMs können hier als intelligente Wissensdatenbank fungieren, die kundenindividuelle Fragen zu Tausenden von Finanzprodukten beantwortet und dabei regulatorisch korrekte Formulierungen verwendet.

Die BaFin hat in ihrem Fokusrisikenbericht 2025 klargestellt, dass generative KI zwar Potenzial im Kundenkontakt bietet, aber bisher relativ beschränkt eingesetzt wird. Ein Hauptgrund liegt in der Schwierigkeit, Halluzinationen vollständig zu verhindern. Wenn ein LLM fehlerhafte Produktinformationen generiert und ein Kunde daraufhin eine ungeeignete Anlageentscheidung trifft, haftet das Haftungsdach nach den Grundsätzen der Anlageberaterhaftung.

Bewährte Praxis ist daher der Einsatz von Retrieval-Augmented Generation (RAG), bei der das LLM ausschließlich auf geprüfte, strukturierte Produktdatenbanken zugreift. Die Antworten werden vor Anzeige durch einen Validierungslayer gefiltert, der offensichtliche Fehler oder unzulässige Empfehlungen blockiert. Dieser Ansatz erfordert erhebliche technische Investitionen, bietet jedoch ein akzeptables Risikoprofil für den produktiven Einsatz.

Automatisierte Gesprächsprotokolle und Dokumentationspflichten

Die Erstellung von Beratungsprotokollen stellt eine der zeitintensivsten Compliance-Pflichten dar. MiFID II verlangt seit 2018 die schriftliche Dokumentation aller Beratungsgespräche in Form einer Geeignetheitserklärung. LLMs können aufgezeichnete Beratungsgespräche analysieren und automatisch strukturierte Protokolle erstellen, die die wesentlichen Beratungsinhalte, getroffenen Aussagen und Produktempfehlungen zusammenfassen.

Die technische Umsetzung erfolgt typischerweise über Spracherkennung gefolgt von LLM-Analyse des Transkripts. Das System identifiziert Schlüsselelemente wie die erfragten Anlageziele, die vom Berater gegebenen Risikohinweise, die vorgestellten Produktalternativen und die finale Empfehlung. Aus diesen Informationen generiert das LLM einen Protokollentwurf, der dem Berater unmittelbar nach Gesprächsende zur Freigabe vorgelegt wird.

Kritisch ist hierbei die Aufzeichnungspflicht selbst. Nach MiFID II müssen Telefongespräche zu Wertpapiergeschäften aufgezeichnet und fünf Jahre aufbewahrt werden. Die gleiche Aufzeichnungs- und Aufbewahrungspflicht gilt für persönliche Gespräche, wenn sie zu einem Wertpapiergeschäft führen oder führen können. Das LLM darf ausschließlich auf diese rechtmäßig erstellten Aufzeichnungen zugreifen, und die Kunden müssen vorab über die KI-gestützte Protokollerstellung informiert werden.

Ein Finanzdienstleister aus Süddeutschland berichtet von einer Fehlerquote von acht Prozent bei LLM-generierten Protokollentwürfen, wobei die Fehler überwiegend Nuancen in der Risikoaufklärung betrafen. Das System hatte beispielsweise dokumentiert, der Berater habe auf das Totalverlustrisiko hingewiesen, während tatsächlich nur das allgemeine Kursrisiko angesprochen wurde. Solche Ungenauigkeiten können im Haftungsfall verheerend sein, wenn ein Kunde behauptet, über bestimmte Risiken nicht aufgeklärt worden zu sein.

Die Lösung liegt in einer zweistufigen Qualitätssicherung. Der beratende Vermittler muss das KI-generierte Protokoll unmittelbar nach Gesprächsende prüfen und freigeben. Zusätzlich erfolgt eine stichprobenartige Überprüfung durch die Compliance-Abteilung des Haftungsdachs, bei der zehn Prozent aller KI-erstellten Protokolle mit der Originalaufzeichnung abgeglichen werden. Diese Doppelprüfung erhöht die Fehlererkennungsrate auf über 95 Prozent und schafft eine dokumentierte Prüfspur für Aufsichtsprüfungen.

Haftungsrisiken und Dokumentationspflichten im Detail

Primärhaftung des Haftungsdachs für KI-Fehler

Das Haftungsdach trägt nach den Grundsätzen des Vertreterrechts die uneingeschränkte Haftung für alle Pflichtverletzungen seiner gebundenen Vermittler. Diese Haftung erstreckt sich auch auf technische Hilfsmittel, die der Vermittler im Beratungsprozess einsetzt. Wenn ein LLM fehlerhafte Produktinformationen liefert oder eine ungeeignete Anlage empfiehlt, haftet das Haftungsdach nach Paragraf 823 BGB in Verbindung mit den Schutzgesetzen des Kapitalmarktrechts.

Die Rechtsprechung hat bereits in früheren Fällen klargestellt, dass sich ein Finanzdienstleister nicht auf Fehler seiner IT-Systeme berufen kann. Im Gegenteil, der Einsatz technischer Hilfsmittel begründet eine erhöhte Sorgfaltspflicht hinsichtlich deren Funktionsfähigkeit und Zuverlässigkeit. Übertragen auf LLMs bedeutet dies, dass das Haftungsdach vor Produktiveinsatz umfangreiche Tests durchführen, die Systeme kontinuierlich monitoren und bei Auffälligkeiten sofort eingreifen muss.

Besonders heikel wird es bei sogenannten Finetuned Models, bei denen das Haftungsdach ein Basismodell mit eigenen Daten nachtrainiert. Hier besteht die Gefahr, dass durch das Nachtraining neue Verzerrungen (Bias) entstehen, die bestimmte Produktkategorien bevorzugen oder Kundengruppen diskriminieren. Das allgemeine Gleichbehandlungsgesetz untersagt Diskriminierung aufgrund von Geschlecht, ethnischer Herkunft, Religion oder Alter. Ein LLM, das beispielsweise älteren Kunden systematisch konservativere Produkte empfiehlt als jüngeren Kunden mit identischem Risikoprofil, verletzt diese Vorgabe.

Dokumentationspflichten nach AI Act und MiFID II

Der AI Act klassifiziert KI-Systeme für Kreditwürdigkeitsprüfung und Bonitätsbewertung als Hochrisiko-KI mit strengen Dokumentationspflichten. Zwar fallen LLMs in der Beratungsassistenz nicht zwingend in diese Kategorie, jedoch gelten für Chatbots und generative KI Transparenzpflichten. Konkret müssen Finanzdienstleister dokumentieren, wann und wie KI im Kundenkontakt eingesetzt wird, und sie müssen Kunden aktiv darüber informieren, dass sie mit einem KI-System interagieren.

Diese Transparenzpflicht geht über ein einfaches Hinweisfeld „powered by AI“ hinaus. Kunden müssen verstehen können, welche Entscheidungen das KI-System trifft und welche ein Mensch trifft. Eine saubere Trennung erfordert typischerweise folgende Elemente in der Benutzeroberfläche: Bei jedem KI-generierten Output erscheint ein Hinweis, dass diese Information durch ein automatisiertes System erstellt wurde. Kunden erhalten jederzeit die Möglichkeit, einen menschlichen Berater anzufordern. Finale Empfehlungen und Eignungsbewertungen werden niemals ausschließlich durch KI erstellt, sondern immer durch einen qualifizierten Berater geprüft und freigegeben.

Die MiFID II-Dokumentationspflichten werden durch KI-Einsatz nicht erleichtert, sondern verschärft. Zusätzlich zum Beratungsprotokoll müssen nun auch die vom LLM genutzten Prompts, die generierten Outputs und die menschlichen Freigaben revisionssicher archiviert werden. Diese erweiterte Dokumentationspflicht dient dem Nachweis, dass das Haftungsdach seiner Aufsichtspflicht über die technischen Systeme nachgekommen ist.

Ein konkretes Beispiel verdeutlicht die Komplexität. Ein Kunde beschwert sich zwei Jahre nach Vertragsabschluss, er sei nicht angemessen über die Kosten eines strukturierten Produkts aufgeklärt worden. Das Haftungsdach muss nun nicht nur das Beratungsprotokoll vorlegen, sondern auch nachweisen, welche Informationen das LLM dem Berater zu den Produktkosten geliefert hat, wie der Berater diese Information im Gespräch weitergegeben hat und ob das LLM zum relevanten Zeitpunkt korrekt funktionierte. Diese Beweislast erfordert eine umfassende Logging-Infrastruktur.

Drittanbieter-Haftung und Regress

Die meisten Haftungsdach-Anbieter entwickeln LLMs nicht selbst, sondern nutzen Dienste von OpenAI, Anthropic, Google oder spezialisierten FinTech-Anbietern. Dies führt zu komplexen Haftungsketten. Der AI Act regelt erstmals explizit die Verantwortlichkeiten von Anbietern (Providers) und Betreibern (Deployers) von KI-Systemen. Anbieter müssen ihre KI-Systeme registrieren und umfassende technische Dokumentation bereitstellen. Betreiber wie Haftungsdächer müssen sicherstellen, dass sie nur konforme Systeme einsetzen und diese angemessen überwachen.

In der Praxis bedeutet dies, dass Haftungsdächer vor Vertragsabschluss mit einem LLM-Anbieter prüfen müssen, ob dieser die AI Act-Anforderungen erfüllt. Die neue Verordnung EU 2025/5235 verpflichtet Anbieter von General-Purpose-AI-Modellen zur umfassenden Offenlegung ihrer Trainingsdaten. Haftungsdächer müssen diese Transparenzvorlagen prüfen und dokumentieren. Fehlt eine solche Vorlage oder ist sie unvollständig, darf das Modell nicht eingesetzt werden.

Die vertragliche Haftungsverteilung mit dem LLM-Anbieter sollte folgende Punkte regeln: Der Anbieter garantiert die Einhaltung des AI Act und stellt das Haftungsdach von Ansprüchen Dritter frei, die auf AI Act-Verstößen beruhen. Bei funktionalen Fehlern des LLM (Halluzinationen, diskriminierende Outputs) haftet primär der Anbieter, wenn das Haftungsdach nachweisen kann, dass es das System bestimmungsgemäß verwendet hat. Bei Compliance-Verstößen durch falsche Anwendung des LLMs haftet das Haftungsdach, kann aber intern an den Vermittler regressieren, wenn dieser das System entgegen den Vorgaben eingesetzt hat.

Diese Haftungskaskaden müssen in dreiseitigen Vereinbarungen zwischen Haftungsdach, Vermittler und LLM-Anbieter klar geregelt werden. Vage Haftungsklauseln führen im Schadensfall zu langwierigen Auseinandersetzungen, während der Kunde bereits Schadensersatz vom Haftungsdach fordern kann.

Implementierungscheck: Von der Pilotierung zum produktiven Betrieb

Strukturierte Testing-Phasen

Die Einführung von LLMs in der Beratung erfordert ein mehrstufiges Testing-Konzept, das über einfache Funktionstests hinausgeht. Die erste Phase umfasst Synthetische Tests, bei denen das Entwicklungsteam bewusst Grenzfälle und problematische Szenarien konstruiert. Beispielsweise wird das LLM gefragt, wie ein 75-jähriger Rentner sein gesamtes Vermögen in hochspekulative Derivate investieren könne. Ein korrekt konfiguriertes System sollte diese Anfrage als ungeeignet erkennen und ablehnen.

Die zweite Phase besteht aus Controlled User Tests mit internen Mitarbeitern, die das System unter realistischen Bedingungen nutzen. Dabei werden mindestens 200 Beratungssimulationen durchgeführt, um statistisch relevante Aussagen über die Systemzuverlässigkeit treffen zu können. Die Fehlerquote sollte unter einem Prozent liegen, wobei als Fehler jede Abweichung von regulatorischen Vorgaben oder fachlich unkorrekten Aussagen gilt.

Die dritte Phase ist ein Closed Beta mit ausgewählten Vermittlern und echten Kunden, die vorab über den Pilotcharakter informiert werden. Diese Phase dauert typischerweise drei bis sechs Monate und umfasst mindestens 500 reale Beratungsvorgänge. Jeder Vorgang wird durch Compliance doppelt geprüft, einmal im Regelprüfungsprozess und einmal speziell hinsichtlich KI-spezifischer Risiken.

Erst nach erfolgreicher Closed Beta und Beseitigung aller identifizierten Schwachstellen erfolgt der Roll-Out an alle Vermittler. Auch in der produktiven Phase bleibt ein erhöhtes Monitoring aktiv, bei dem mindestens 20 Prozent aller KI-unterstützten Beratungen stichprobenartig geprüft werden. Diese Quote wird nach sechs Monaten störungsfreiem Betrieb schrittweise auf fünf Prozent reduziert.

Kontinuierliches Monitoring und Schwellwerte

LLMs sind keine statischen Systeme. Durch Model Drift können sich die Outputs über die Zeit verändern, selbst wenn das Modell nicht aktiv weiterentwickelt wird. Ursachen sind Änderungen in den Trainingsdaten bei Cloud-basierten Diensten oder Anpassungen der API-Schnittstellen durch den Anbieter. Ein robustes Monitoring erfasst deshalb kontinuierlich mehrere Kennzahlen.

Die Response Quality Score misst die fachliche Korrektheit der LLM-Antworten durch automatisierte Vergleiche mit einer kuratierten Referenzdatenbank. Weicht die Antwort auf eine Standardfrage um mehr als zehn Prozent vom Referenzwert ab, wird eine manuelle Überprüfung ausgelöst. Die Compliance Violation Rate erfasst, wie häufig das LLM Outputs generiert, die gegen MiFID II-Vorgaben oder interne Compliance-Richtlinien verstoßen. Ein Schwellwert von 0,5 Prozent sollte nicht überschritten werden.

Der Hallucination Detection Score nutzt eigene KI-Systeme, um potenzielle Halluzinationen zu identifizieren. Wenn das LLM beispielsweise behauptet, ein Produkt habe eine garantierte Rendite von acht Prozent, obwohl keine Garantie existiert, schlägt der Detektor Alarm. Die User Escalation Rate misst, wie oft Nutzer eine KI-Interaktion abbrechen und einen menschlichen Berater anfordern. Steigt diese Rate über fünf Prozent, deutet das auf grundlegende Probleme in der User Experience oder Vertrauenswürdigkeit hin.

Überschreitet eine dieser Kennzahlen den definierten Schwellwert, greift ein mehrstufiger Eskalationsprozess. Bei leichten Überschreitungen wird das Entwicklungsteam informiert und untersucht die Ursache binnen 24 Stunden. Bei schweren Verstößen oder gehäuften Auffälligkeiten wird das System sofort vom Produktivbetrieb getrennt, bis die Ursache geklärt und behoben ist. Diese Abschaltautomatik muss technisch implementiert sein und darf nicht von manuellen Entscheidungen abhängen.

Service-Level-Agreements mit KI-Anbietern

Die vertraglichen Vereinbarungen mit LLM-Anbietern sollten spezifische SLAs enthalten, die über Standard-Verfügbarkeitsgarantien hinausgehen. Ein typisches SLA für den Finanzsektor umfasst folgende Komponenten: Die Systemverfügbarkeit muss während der Geschäftszeiten mindestens 99,5 Prozent betragen, außerhalb der Kernzeiten mindestens 98 Prozent. Die Response Time für Standard-Anfragen darf zwei Sekunden nicht überschreiten, um flüssige Beratungsgespräche zu ermöglichen.

Die Model Consistency garantiert, dass sich das Verhalten des LLMs bei identischen Prompts nicht unerwartet ändert. Bei geplanten Updates muss der Anbieter mindestens 30 Tage vorher informieren und eine Testumgebung bereitstellen. Für sicherheitskritische Patches verkürzt sich die Vorlauffrist auf 72 Stunden, wobei das Haftungsdach trotzdem verpflichtet ist, unmittelbare Tests durchzuführen.

Die Data Residency-Klausel stellt sicher, dass alle personenbezogenen Kundendaten ausschließlich auf EU-Servern verarbeitet werden und nicht an Server in Drittländern übermittelt werden. Dies ist eine DSGVO-Anforderung, die für Finanzdienstleister besonders strikt gilt. Der Anbieter muss quartalsweise Compliance-Berichte vorlegen, die den Verarbeitungsort nachweisen.

Kritisch sind auch Audit-Rechte. Das Haftungsdach muss das Recht haben, den LLM-Anbieter mindestens einmal jährlich durch einen unabhängigen Prüfer auditieren zu lassen. Dies umfasst die Überprüfung der Trainingsdaten, der Qualitätssicherungsprozesse und der Sicherheitsmaßnahmen. Die Kosten trägt das Haftungsdach, außer bei schwerwiegenden Mängeln, dann der Anbieter. Diese Audit-Rechte sind essenziell, um der BaFin gegenüber nachweisen zu können, dass das Haftungsdach seiner Überwachungspflicht nachkommt.

Governance-Matrix: Verantwortlichkeiten und Kontrollmechanismen

Strategische Ebene: Vorstand und Geschäftsführung

Die Geschäftsführung des Haftungsdachs trägt die Gesamtverantwortung für den KI-Einsatz und muss diese Verantwortung aktiv wahrnehmen. Der AI Act fordert explizit, dass die Unternehmensführung sich mit den Chancen und Risiken von KI auseinandersetzt und entsprechende Richtlinien verabschiedet. In der Praxis bedeutet dies, dass mindestens ein Geschäftsführungsmitglied die Rolle des Chief AI Officer übernimmt oder ein solcher auf Ebene der erweiterten Geschäftsleitung benannt wird.

Zu den Aufgaben gehört die Verabschiedung einer KI-Policy, die den Einsatzrahmen definiert. Diese Policy legt fest, welche Prozesse durch KI unterstützt werden dürfen, welche zwingend menschliche Entscheidungen erfordern und welche Qualitätssicherungsmechanismen greifen. Die Policy muss jährlich überprüft und bei Bedarf angepasst werden, insbesondere wenn neue Use Cases hinzukommen oder sich die regulatorischen Anforderungen ändern.

Die Geschäftsführung genehmigt außerdem das Budget für KI-Initiativen und priorisiert konkurrierende Projekte. Erfahrungswerte zeigen, dass die Implementierung eines produktionsreifen LLM-Systems für ein mittelgroßes Haftungsdach zwischen 200.000 und 500.000 Euro kostet, zuzüglich laufender Kosten von 5.000 bis 15.000 Euro monatlich. Diese Investitionen müssen gegen den erwarteten Nutzen abgewogen werden, wobei nicht nur Kostenersparnisse, sondern auch Qualitätsverbesserungen und Compliance-Risikominderung zu berücksichtigen sind.

Operative Ebene: KI-Kompetenzteam und Fachbereiche

Auf operativer Ebene sollte ein interdisziplinäres KI-Kompetenzteam etabliert werden, das IT-Experten, Compliance-Spezialisten, Fachbereichsvertreter und idealerweise einen Datenschutzbeauftragten umfasst. Dieses Team trifft sich mindestens monatlich und bespricht laufende KI-Projekte, identifizierte Risiken und notwendige Anpassungen.

Die IT-Abteilung verantwortet die technische Integration der LLM-APIs, das Monitoring der Systemperformance und die Sicherstellung der Datensicherheit. Sie implementiert auch die Logging-Infrastruktur, die alle KI-Interaktionen revisionssicher protokolliert. Die Compliance-Abteilung prüft die regulatorische Konformität aller KI-Anwendungen, führt die stichprobenartigen Qualitätskontrollen durch und erstellt quartalsweise Compliance-Berichte für die Geschäftsführung und die Aufsicht.

Die Fachbereiche, also die eigentlichen Beratungseinheiten, sind verantwortlich für die fachliche Qualität der LLM-Outputs. Sie definieren die Prompts, kuratieren die Wissensdatenbanken und schulen die Vermittler im sachgerechten Umgang mit KI-Tools. Besonders wichtig ist die Schulung zur Erkennung von LLM-Fehlern. Vermittler müssen sensibilisiert werden, dass LLMs überzeugend klingende, aber faktisch falsche Aussagen generieren können.

Kontrollebene: Interne Revision und externe Prüfung

Die interne Revision prüft mindestens jährlich die Wirksamkeit der KI-Governance-Strukturen. Dies umfasst die Überprüfung, ob die definierten Prozesse eingehalten werden, ob die Monitoring-Systeme funktionieren und ob die Dokumentation den regulatorischen Anforderungen genügt. Die Revision hat uneingeschränkten Zugriff auf alle Systeme und Logs und berichtet direkt an die Geschäftsführung.

Kritische Prüffelder sind die Vollständigkeit der Risikoanalysen für jeden KI-Use Case, die Nachvollziehbarkeit der Testing-Dokumentation, die Funktionsfähigkeit der Schwellwert-basierten Alarme und die Einhaltung der SLAs mit den Drittanbietern. Bei identifizierten Mängeln setzt die Revision Fristen für deren Behebung und überwacht die Umsetzung der Maßnahmen.

Externe Wirtschaftsprüfer können im Rahmen der Jahresabschlussprüfung oder spezialisierter IT-Audits die KI-Systeme prüfen. Zwar gibt es noch keine spezifischen Prüfungsstandards für LLMs in der Finanzberatung, jedoch können die allgemeinen IT-Prüfungsstandards wie ISAE 3402 angewendet werden. Einige spezialisierte Prüfungsgesellschaften bieten bereits AI Assurance Services an, die gezielt die AI Act-Konformität bewerten.

Eskalations- und Incident-Management

Trotz aller Vorsichtsmaßnahmen können KI-Vorfälle auftreten. Ein strukturierter Incident-Management-Prozess definiert, wie mit solchen Vorfällen umzugehen ist. Als Incident gilt jede Abweichung vom erwarteten Systemverhalten, die potenzielle Compliance- oder Haftungsrisiken birgt. Beispiele sind systematische Fehler in Produktinformationen, diskriminierende Empfehlungen oder technische Ausfälle während kritischer Beratungsphasen.

Bei Auftreten eines Incidents wird dieser zunächst klassifiziert. Kritische Incidents (Kategorie 1) betreffen schwerwiegende Compliance-Verstöße oder potenzielle Kundenschäden und erfordern sofortige Maßnahmen binnen einer Stunde. Dazu gehört typischerweise die Abschaltung des betroffenen Systems, die Information der Geschäftsführung und die Dokumentation des Vorfalls. Mittlere Incidents (Kategorie 2) betreffen Qualitätsprobleme ohne unmittelbare Kundengefährdung und werden binnen 24 Stunden bearbeitet. Leichte Incidents (Kategorie 3) sind Optimierungsbedarfe, die in den regulären Entwicklungszyklus einfließen.

Nach Behebung des Incidents erfolgt eine Root-Cause-Analyse, die die Ursachen identifiziert und Maßnahmen zur Vermeidung ähnlicher Vorfälle definiert. Diese Analyse wird dokumentiert und fließt in die Lessons-Learned-Datenbank ein. Bei kritischen Incidents muss die BaFin innerhalb von 72 Stunden informiert werden, analog zu den DORA-Meldepflichten für IKT-Vorfälle.

Praxisbeispiel: Governance-Matrix eines mittelständischen Haftungsdachs

Ein Haftungsdach mit 180 gebundenen Vermittlern hat folgende Governance-Struktur für den Einsatz von LLMs im Kundenonboarding implementiert. Die strategische Verantwortung liegt beim Chief Operating Officer, der quartalsweise dem Aufsichtsrat über den KI-Einsatz berichtet. Ein KI-Steering-Committee mit sechs Mitgliedern trifft sich monatlich und umfasst die Leiter von IT, Compliance, Vertrieb, Produktmanagement sowie zwei Vermittler als Fachexperten.

Auf operativer Ebene wurde ein dreiköpfiges KI-Operations-Team eingerichtet, das sich ausschließlich mit der Betreuung der LLM-Systeme beschäftigt. Ein Data Engineer überwacht die technische Performance und das Monitoring, ein Compliance-Analyst prüft stichprobenartig die Outputs und ein Prompt Engineer optimiert kontinuierlich die Prompts basierend auf Nutzerfeedback.

Die Vermittler wurden in zwei ganztägigen Workshops geschult und erhalten monatliche Updates zu Neuerungen und Best Practices. Eine interne Helpline beantwortet Fragen zum System binnen vier Stunden. Die Vermittler sind verpflichtet, jeden identifizierten Fehler über ein Ticketsystem zu melden, wobei die durchschnittliche Meldequote bei 0,3 Prozent aller Interaktionen liegt.

Das Monitoring umfasst 15 definierte Kennzahlen, die in einem Echtzeit-Dashboard visualisiert werden. Drei davon haben automatische Schwellwerte, deren Überschreitung einen sofortigen Alarm auslöst. In den ersten sechs Monaten wurden vier solche Alarme ausgelöst, von denen drei False Positives waren und einer tatsächlich ein Problem identifizierte. In diesem Fall hatte ein API-Update des LLM-Anbieters die Formatierung der Outputs verändert, was die nachgelagerten Validierungssysteme irritierte.

Die internen Revisionen im zweiten und vierten Quartal ergaben jeweils kleinere Verbesserungsbedarfe, insbesondere bei der Vollständigkeit der Dokumentation. Nach Umsetzung der empfohlenen Maßnahmen wurde das System von der BaFin im Rahmen einer Routineprüfung begutachtet. Die Prüfer lobten die strukturierte Governance, mahnten aber eine klarere Abgrenzung zwischen KI-assistierter und rein menschlicher Beratung in der Kundenkommunikation an. Diese Anmerkung führte zu einer Überarbeitung der Benutzeroberfläche mit deutlicheren Hinweisen auf den KI-Einsatz.

Ausblick: Regulatorische Entwicklungen und künftige Anforderungen

AI Act Phase 2: Verschärfungen ab August 2026

Die meisten Anforderungen des AI Act treten erst ab August 2026 vollständig in Kraft. Ab diesem Zeitpunkt müssen Hochrisiko-KI-Systeme durch eine Konformitätsbewertung nachweisen, dass sie die regulatorischen Vorgaben erfüllen. Zwar fallen LLMs in der Beratungsassistenz derzeit nicht zwingend in die Hochrisiko-Kategorie, jedoch kann sich dies ändern, wenn die Systeme substanziell in Anlageentscheidungen eingreifen.

Die Abgrenzung zwischen assistierender KI und entscheidender KI ist fließend. Wenn ein LLM nicht nur Informationen bereitstellt, sondern konkrete Produktempfehlungen generiert, die der Berater typischerweise übernimmt, könnte dies als entscheidungsrelevantes System eingestuft werden. Die BaFin hat angekündigt, diese Grenzfälle zu beobachten und gegebenenfalls nachzuschärfen.

Haftungsdächer sollten deshalb bereits heute ihre Systeme so gestalten, dass sie bei Bedarf auf Hochrisiko-Anforderungen aufgerüstet werden können. Dies umfasst insbesondere die umfassende technische Dokumentation, regelmäßige Risikobewertungen und die Implementierung von Human-Oversight-Mechanismen, die sicherstellen, dass kritische Entscheidungen immer von Menschen getroffen werden.

BaFin Prinzipienpapier 2.0 und MaRisk-Anpassung

Die BaFin hat 2019 ein vorläufiges Prinzipienpapier zum Einsatz von Algorithmen in Entscheidungsprozessen veröffentlicht und angekündigt, dieses weiterzuentwickeln. Eine aktualisierte Fassung wird für 2026 erwartet und dürfte konkretere Anforderungen an den Einsatz von LLMs enthalten. Erwartbar sind Vorgaben zur Bias-Vermeidung, zur Erklärbarkeit von Entscheidungen und zur Dokumentation der Trainingsdaten.

Parallel dazu könnten die Mindestanforderungen an das Risikomanagement (MaRisk) um einen spezifischen Abschnitt zu KI-Risiken erweitert werden. Derzeit fallen KI-Systeme unter die allgemeinen IT-Risiken und Auslagerungsanforderungen, jedoch ist fraglich, ob diese Regelungen die spezifischen Charakteristika von LLMs angemessen erfassen.

Haftungsdächer sollten die regulatorischen Entwicklungen engmaschig verfolgen und an Konsultationen teilnehmen. Die BaFin zeigt sich bisher grundsätzlich innovationsfreundlich, erwartet aber proaktive Auseinandersetzung mit Risiken und transparente Kommunikation mit der Aufsicht.

Liability-Directive und verschärfte Haftung

Die EU-Kommission arbeitet an einer AI Liability Directive, die die Haftungsregeln für KI-Schäden harmonisieren soll. Der aktuelle Entwurf sieht vor, dass Geschädigte in bestimmten Fällen Zugang zu Informationen über das KI-System erhalten, um ihre Ansprüche durchsetzen zu können. Dies würde die Beweislast zugunsten der Kunden verschieben.

Für Haftungsdächer bedeutet dies potenziell, dass sie im Streitfall nicht nur das Beratungsprotokoll und die Aufzeichnung vorlegen müssen, sondern auch die verwendeten Prompts, die LLM-Responses und die internen Prüfprozesse offenlegen müssen. Diese erweiterte Auskunftspflicht erfordert eine noch umfassendere Dokumentation und könnte die Prozesskosten erheblich steigern.

Als Reaktion sollten Haftungsdächer ihre Versicherungsdeckung überprüfen. Standard-Berufshaftpflichtversicherungen decken KI-spezifische Risiken oft nicht oder nur eingeschränkt ab. Spezialisierte AI-Haftpflichtprodukte existieren bereits, sind aber noch relativ teuer und bieten begrenzte Deckungssummen. Mit zunehmender Marktreife werden diese Produkte voraussichtlich erschwinglicher.

Fazit: Chancen nutzen, Risiken managen, Governance etablieren

Large Language Models bieten substanzielle Effizienzpotenziale in der Finanzberatung unter Haftungsdach-Strukturen. Die Automatisierung von Routinetätigkeiten wie Dokumentation, Produktinformation und initialem Kundenkontakt kann Berater entlasten und ihnen mehr Zeit für die eigentliche Beratung verschaffen. Gleichzeitig steigen Qualität und Konsistenz der Beratung, wenn gut konfigurierte LLMs als zweites Paar Augen fungieren.

Diese Potenziale sind jedoch nur realisierbar, wenn das Haftungsdach robuste Governance-Strukturen etabliert, die spezifischen Risiken von LLMs versteht und angemessen adressiert sowie die komplexen regulatorischen Anforderungen aus AI Act, MiFID II und DSGVO erfüllt. Die Investitionen in Technologie, Prozesse und Kompetenzaufbau sind erheblich und sollten nicht unterschätzt werden.

Erfolgreiche Implementierungen zeichnen sich durch schrittweises Vorgehen aus. Anstatt das gesamte Beratungsspektrum auf einmal zu automatisieren, beginnen erfahrene Anbieter mit eng umgrenzten Use Cases wie der Generierung von Gesprächsprotokollen oder der Beantwortung von Standardfragen zu Produktmerkmalen. Nach erfolgreicher Pilotierung und mindestens sechsmonatiger Betriebserfahrung werden weitere Use Cases hinzugefügt.

Die klare Trennung zwischen KI-assistierter Unterstützung und finaler menschlicher Entscheidung ist dabei essenziell. LLMs sollten in der Finanzberatung als intelligente Werkzeuge verstanden werden, nicht als autonome Entscheidungssysteme. Der Berater bleibt verantwortlich und muss jederzeit in der Lage sein, KI-generierte Empfehlungen kritisch zu hinterfragen und bei Bedarf zu überstimmen.

Haftungsdächer, die diese Prinzipien beherzigen, können KI-Assistenz als nachhaltigen Wettbewerbsvorteil etablieren. Sie verbessern die Beratungsqualität, reduzieren Compliance-Risiken durch konsistente Dokumentation und schaffen Skalierbarkeit bei gleichbleibend hohen Standards. Die regulatorischen Hürden sind hoch, aber überwindbar für Organisationen, die bereit sind, in Governance und Qualitätssicherung zu investieren.


Hinweis: Dieser Artikel stellt eine fachliche Einschätzung dar und ersetzt keine individuelle rechtliche oder regulatorische Beratung. Die Rechtslage zu KI in der Finanzberatung entwickelt sich dynamisch. Haftungsdächer sollten vor Implementierung von LLM-Systemen spezialisierte Rechts- und Compliance-Beratung hinzuziehen.

Quellen und weiterführende Informationen

Über das Haftungsdach der INNO INVEST

INNO INVEST Geschäftsführung | Herbert Schmitt und Stefan Schmitt
INNO INVEST
Geschäftsführung: Herbert Schmitt (li)
und Stefan Schmitt (re)
Vermögensverwaltung | Haftungsdach

Als einer der modernsten Haftungsdach-Vermögensverwalter bietet die INNO INVEST neben der hauseigenen Vermögensverwaltung für vermögende Privatkunden und Unternehmer auch die gesamte Wertschöpfungskette des Wealth Managements über ihre eigene Wealthtech-Plattform für externe Vermögensverwalter, Multi Family Offices und Anlageberater an. Mit Anbindungen an renommierte Depotbanken wie bspw. UBS, DAB BNP Paribas, V-Bank, Comdirect, FNZ, die österreichische easybank oder Interactive Brokers LLC. kooperiert INNO INVEST auch mit innovativen Produktplattformen wie Privatize oder Weltsparen by Raisin sowie mit ausgewählten Private Equity-Häusern. Aus Darmstadt heraus werden die Klassische sowie die Online-Vermögensverwaltung für vermögende Privatkunden und Unternehmer, als Infrastruktur-Fintech die Wealthtech-Plattform für Investment-Fintechs und für vertraglich gebundene Vermittler ein professionelles Haftungsdach angeboten.

 

Entdecken Sie hier unsere Vermögensverwaltung: