Jeder BI-Stack, den ich je gesehen habe, endet auf dieselbe Weise: Ein Mensch schaut auf ein Diagramm und entscheidet, was zu tun ist. Das gesamte Engineering davor, die Ingestion, die Modellierung, das Testen, existiert für diesen einen Moment, in dem eine Person auf einen Bildschirm schaut. Das Dashboard informiert. Ein Mensch handelt. An dieser Übergabe lebt Analytics seit zwanzig Jahren.
Für meine MSc-Dissertation habe ich die übliche erste Hälfte dieser Geschichte gebaut. Einen Churn-Intelligence-Stack für eine produktive B2B-SaaS-Umgebung: Survival Analysis, um zu sagen, wann Accounts voraussichtlich abwandern, Gradient-Boosting-Klassifikation mit SHAP-Erklärungen, um zu sagen, wie wahrscheinlich und warum, und kausale Inferenz mit DR-Learner, um zu sagen, welche Interventionen tatsächlich wirken, statt nur mit dem Bleiben zu korrelieren. Darunter ein Warehouse aus 48 dbt-Modellen in geschichteter Kimball-Architektur, befüllt von Python-Extraktoren und orchestriert mit Dagster.
Dann habe ich, statt beim Dashboard aufzuhören, einen Model-Context-Protocol-Endpoint obendrauf gesetzt.
Was MCP tatsächlich ändert
MCP ist ein kleiner offener Standard, der es einem LLM-Agenten erlaubt, von Ihnen definierte Tools aufzurufen. Mein Server stellt zwölf davon über dem Intelligence-Stack bereit: Dinge wie churn_at_risk_accounts, churn_score_for_account und csm_intervention_priority, organisiert in die Domänen Churn, Account und Customer Success über einer gemeinsamen Datenbankschicht.
Der Unterschied zeigt sich am deutlichsten an einem einzigen Austausch. Ein Customer-Success-Lead fragt: "Welche Accounts sind dieses Quartal hochriskant, und welche davon würden tatsächlich reagieren, wenn wir intervenieren?" Auf einem Dashboard sind das zwei Filter, ein Join im Kopf und eine Diskussion darüber, was "reagieren" bedeutet. Über den MCP-Endpoint verkettet ein Agent zwei Tool-Aufrufe, gleicht das Survival-Fenster mit der kausalen Treatment-Gruppe ab und antwortet mit der priorisierten Liste samt SHAP-Treibern pro Account. Der Mensch entscheidet weiterhin. Aber das Warten, das Filtern und der Join im Kopf sind weg.
Das ist die ganze These in einem Satz: Dashboards informieren, Agenten handeln, und die interessante Engineering-Frage rutscht eine Ebene tiefer.
Der Agent ist nur so ehrlich wie die Marts darunter
Hier kommt der Teil, der in den meisten Agent-Demos übersprungen wird. Ein LLM-Agent antwortet aus einem kaputten Mart mit genau derselben Überzeugung wie aus einem korrekten. Er hat keine Ahnung, dass Ihr Umsatzmodell Verlängerungen stillschweigend doppelt zählt. Ein menschlicher Analyst würde bei einer verdächtigen Zahl vielleicht stutzen; der Agent fasst sie flüssig zusammen und macht weiter.
Die Glaubwürdigkeit der gesamten agentischen Schicht wird also von der unglamourösesten Arbeit im Stack entschieden. In diesem Projekt hieß das: dimensionale Modelle mit Tests auf jeder Ebene, Contracts auf den Schnittstellen, die die Tools abfragen, und Korrektheit, die in der CI geprüft wird, bevor irgendetwas den Serving Layer erreicht. Dieselbe Disziplin wie auf der Produktionsplattform, die ich bei Force24 gebaut habe, wo 123 dbt-Tests und 82 pytest-Tests 22 Datenqualitätsfehler abgefangen haben, bevor sie live gingen. Nichts davon macht sich gut in einer Demo. Alles davon ist der Grund, warum den Antworten des Agenten vertraut werden kann.
Wenn Ihre Marts nicht getestet sind, liefert ein MCP-Endpoint keinen KI-Analysten. Er liefert einen sehr eloquenten Lügner.
Grenzen, ehrlich benannt
Dies war ein Dissertationsprojekt in einer NDA-geschützten Umgebung, die Fallstudie auf dieser Seite ist daher sanitisiert. Die Modelle sind stark, aber keine Magie: Das Survival-Modell erreichte kreuzvalidiert einen C-Index von rund 0,94, der Klassifikator eine AUC von rund 0,95 gegenüber rund 0,89 für die logistische Baseline, und die Kausalschicht korrigierte einen Selektionsbias von rund 50 Prozentpunkten, den ein naiver Vergleich als Fakt ausgeliefert hätte. Diese Zahlen sind gut, weil die Datenebene sie gut sein ließ.
Und Agenten ersetzen keine Analysten. Sie ersetzen das Warten zwischen einer Frage und ihrer Antwort. Jemand muss weiterhin entscheiden, was eine Treatment-Gruppe bedeutet, ob eine Intervention ihre Kosten wert ist und wann das Modell falsch liegt. Dieser Jemand verbringt seine Zeit jetzt mit Urteilsvermögen statt mit Filtern.
Das Muster ist übertragbar
Nichts davon ist churn-spezifisch. Jede Intelligence-Schicht mit echter Modellierung darunter, bepreistes Risiko, Nachfrageprognosen, Fraud-Scores, lässt sich auf dieselbe Weise zugänglich machen: Tools über getesteten Marts, Erklärungen an jeder Zahl und ein Agent davor. Nur wenige Teams haben dieses Muster bislang Ende zu Ende ausgeliefert. Ich glaube, in drei Jahren wird es schlicht das sein, was "Serving Layer" bedeutet.
Zur vollständigen Fallstudie →
Ich bin MSc-Data-Science-Absolvent (Salford, 2026) mit Sitz in Manchester, ab sofort verfügbar für Junior- und Mid-Level-Rollen in Analytics Engineering, Data Engineering und Data Science im Vereinigten Königreich und in Deutschland/EU. Wenn Ihr Team mit der Schicht zwischen Modellen und Entscheidungen ringt, würde ich gern davon hören.