Validierung
Jeder Mensch macht Fehler. Jedes LLM halluziniert. Der Unterschied: Wir können messen, wie oft — und systematisch dafür sorgen, dass es unter einer definierten Schwelle bleibt.
Ein Sprachmodell das eine Steuererklärung bearbeitet, kann Beträge erfinden. Ein Safety-Assistent kann Norm-Referenzen halluzinieren. Ein Support-Agent kann Zusagen machen, die das Unternehmen nicht einhalten kann.
Die meisten KI-Anbieter ignorieren dieses Problem — oder verlassen sich auf ein „klappt schon meistens“. Wir nicht.
Abgeleitet aus der Methodik für autonome Fahrzeuge (ADAS) und funktionale Sicherheit. Adaptiert für KI-Agenten in Unternehmensumgebungen.
Business Case → max. Fehlerrate.
Z.B.: <0,15% bei 7.500 Vorgängen/Jahr.
Prompt Engineering + Referenzwissen.
Fachwissen in Dateien, nicht im LLM-Gedächtnis.
Halluzinations-Erkennung.
Deterministische + semantische Prüfung.
OODA-Zyklus
TurboQuant
Qwen 27B
Iterativer Regelkreis:
Fehler → Prompt-Fix → Re-Test
Jeder Vorgang wird automatisch gescort.
Quartalsweise Fehlerrate.
2.000 synthetische Szenarien.
Statistischer Nachweis mit Konfidenzintervall.
Isolierte Tests pro OODA-Phase.
Equivalence Classes + Boundary Values.
Für jeden Agenten laufen mehrtägige Validierungszyklen mit tausenden Testfällen auf unserer GPU-Infrastruktur. Jeder einzelne Testfall wird KI-gestützt ausgewertet — deterministisch für Zahlen und Fakten, semantisch für Ton und Kontext. Erst wenn die gemessene Fehlerrate unter dem vereinbarten Akzeptanzkriterium liegt, geht der Agent in Produktion. Diesen Aufwand betreiben wir für jeden einzelnen Agenten.
Python-Code, kein LLM. 100% zuverlässig, <1 Sekunde.
Separater LLM-Call, niedrige Temperatur. Kalibriert gegen Gold-Standard.
Kalibrierung: Jeder Check-Prompt wird gegen handkuratierte Gold-Drafts (bekannt gut + bekannt schlecht) kalibriert. Precision, Recall und F1-Score werden gemessen. Nur Checks mit F1 > 0,9 werden eingesetzt. Die Details unserer Kalibrierungsmethodik sind proprietär.
KV-Cache-Kompression auf 3 Bit (ICLR 2026). 6× mehr Kontext auf der gleichen GPU. Zero Accuracy Loss.
Kleines Draft-Modell generiert, großes validiert. 2,5× schnellere Inferenz bei gleicher Qualität.
Jede Aussage des Agenten wird in atomare Claims zerlegt und gegen die Quelldaten verifiziert. Basiert auf FActScore und Chain-of-Verification (Meta 2023).
Unsere Methodik basiert auf Standards, die für autonomes Fahren und ADAS-Systeme entwickelt wurden. Wir sind die Ersten, die diese Methodik systematisch auf KI-Agenten in Unternehmensumgebungen anwenden.
Akzeptanzkriterien, Monte Carlo, Szenario-Generierung, V&V-Prozess
AI Safety Requirements, Input Space Refinement, Output Insufficiencies
Validation der Intended Functionality, Residual Risk, Trigger Conditions
HAZOP, FMEA, deterministische Safety Measures, Prozessreife
Die vollständige Validierungsmethodik ist Teil unserer Beratungsleistung. Wir zeigen Ihnen gerne in einem persönlichen Gespräch, wie wir Ihren KI-Agenten so aufsetzen, dass Sie sich auf ihn verlassen können.
Kontakt aufnehmen