A
AIMOS

Validation

Comment un agent IA devient-il
opérationnel ?

Tout être humain fait des erreurs. Tout LLM hallucine. La différence : nous pouvons mesurer la fréquence — et veiller systématiquement à ce qu'elle reste en dessous d'un seuil défini.

Le problème : les agents IA peuvent halluciner

Un modèle linguistique traitant une déclaration fiscale peut inventer des montants. Un assistant sécurité peut halluciner des références normatives. Un agent de support peut faire des promesses que l'entreprise ne peut pas tenir.

La plupart des fournisseurs d'IA ignorent ce problème — ou se fient à un « la plupart du temps ça fonctionne ». Pas nous.

Hallucinations IA typiques

  • Montants inventés (« Remboursement : 4 782 € » — jamais calculé)
  • Références normatives fausses (« conformément au §35a al. 7 » — n'existe pas)
  • Mélange de données clients (données du client A dans un e-mail au client B)
  • Fausses promesses (« J'ai soumis votre déclaration »)
  • Informations obsolètes (forfait de 2021 au lieu de 2025)

Notre solution : une validation systématique

Dérivée de la méthodologie pour les véhicules autonomes (ADAS) et la sécurité fonctionnelle. Adaptée aux agents IA en environnement d'entreprise.

// V de validation — de la spécification à la preuve statistique
ISO/TS 5083 Cl. 6.2
1. Critères d'acceptation

Business Case → taux d'erreur max.
Ex. : <0,15 % pour 7 500 opérations/an.

ISO/PAS 8800 Cl. 9
2. Agent Design

Prompt Engineering + connaissances de référence.
Expertise dans des fichiers, pas dans la mémoire du LLM.

ISO 26262 / SOTIF
3. Safety Measures

Détection d'hallucinations.
Vérification déterministe + sémantique.

Agent IA

Cycle OODA
TurboQuant
Qwen 27B

Boucle itérative :
Erreur → Correction du prompt → Re-test

ISO/TS 5083 Cl. 9
6. Monitoring opérationnel

Chaque opération est automatiquement évaluée.
Taux d'erreur trimestriel.

ISO/TS 5083 H.4
5. Monte Carlo Validation

2 000 scénarios synthétiques.
Preuve statistique avec intervalle de confiance.

ISO 21448 (SOTIF)
4. Tests par phase (SOTIF/FuSi)

Tests isolés par phase OODA.
Equivalence Classes + Boundary Values.

L'effort derrière la fiabilité

2 000+
Scénarios de test synthétiques
Générés automatiquement à partir de
l'espace paramétrique de l'agent
10 000+
Vérifications assistées par IA
Chaque scénario passe par
15 contrôles automatiques
Jours
Durée de validation par agent
Plusieurs jours de cycles GPU jusqu'à
la preuve statistique

Pour chaque agent, des cycles de validation de plusieurs jours sont exécutés avec des milliers de cas de test sur notre infrastructure GPU. Chaque cas de test est évalué par IA — de manière déterministe pour les chiffres et les faits, sémantiquement pour le ton et le contexte. Ce n'est que lorsque le taux d'erreur mesuré est inférieur au critère d'acceptation convenu que l'agent passe en production. Nous fournissons cet effort pour chaque agent individuellement.

Détection d'hallucinations : deux couches

Couche 1 : Déterministe

Code Python, pas de LLM. Fiable à 100 %, <1 seconde.

  • ✓ Chaque montant en EUR dans la sortie est vérifié par rapport aux données d'entrée
  • ✓ Aucun artefact d'appel d'outil dans les e-mails (XML, JSON)
  • ✓ Aucun mélange de données clients (vérification du périmètre)
  • ✓ Aucun terme système interne exposé à l'extérieur
  • ✓ Résistance aux injections de prompt

Couche 2 : Sémantique (basée sur LLM)

Appel LLM séparé, température basse. Calibré sur un gold standard.

  • ✓ Ton professionnel (même avec des clients difficiles)
  • ✓ Cohérence du contenu (pas de remboursement sans données)
  • ✓ Exhaustivité (documents manquants signalés)
  • ✓ Aucune fausse promesse
  • ✓ Langue correcte (DE/EN selon le client)

Calibrage : Chaque prompt de vérification est calibré sur des brouillons gold annotés manuellement (connus bons + connus mauvais). La précision, le rappel et le score F1 sont mesurés. Seuls les contrôles avec un F1 > 0,9 sont déployés. Les détails de notre méthodologie de calibrage sont propriétaires.

La recherche en production

TurboQuant

Compression du KV-Cache à 3 bits (ICLR 2026). 6× plus de contexte sur le même GPU. Zero Accuracy Loss.

Speculative Decoding

Un petit modèle draft génère, un grand valide. Inférence 2,5× plus rapide à qualité égale.

Claim Decomposition

Chaque affirmation de l'agent est décomposée en claims atomiques et vérifiée par rapport aux données sources. Basé sur FActScore et Chain-of-Verification (Meta 2023).

Standards de référence

Notre méthodologie repose sur des standards développés pour la conduite autonome et les systèmes ADAS. Nous sommes les premiers à appliquer systématiquement cette méthodologie aux agents IA en environnement d'entreprise.

ISO/TS 5083:2025 — Safety for Automated Driving Systems: Design, Verification and Validation

Critères d'acceptation, Monte Carlo, génération de scénarios, processus V&V

ISO/PAS 8800:2024 — Road Vehicles: Safety and Artificial Intelligence

AI Safety Requirements, Input Space Refinement, Output Insufficiencies

ISO 21448 (SOTIF) — Safety of the Intended Functionality

Validation de la fonctionnalité prévue, risque résiduel, conditions de déclenchement

ISO 26262 / Automotive SPICE — Sécurité fonctionnelle + qualité des processus

HAZOP, FMEA, mesures de sécurité déterministes, maturité des processus

Intéressé par les détails ?

La méthodologie de validation complète fait partie de notre prestation de conseil. Nous vous montrons volontiers lors d'un entretien personnel comment nous configurons votre agent IA pour que vous puissiez compter sur lui en toute confiance.

Nous contacter