>

Documentation technique

Architecture technique

Du défi à l'appel LLM — les principes d'architecture d'AIMOS.

Le défi

32 Go de VRAM — c'est tout ce qu'il faut

Les LLM cloud fonctionnent avec d'énormes fenêtres de contexte sur des clusters de serveurs spécialisés. AIMOS fonctionne sur une seule carte graphique dans votre bureau — et atteint, grâce à des moyens architecturaux, une performance qui non seulement suffit pour les tâches d'entreprise, mais fournit souvent de meilleurs résultats que les modèles cloud surdimensionnés.

// Comparaison des fenêtres de contexte (Tokens)
250K 500K 750K 1.000K Gemini 2.5 1.000.000 Cloud • $$$ Claude 4 200.000 Cloud • $$ GPT-4o 128.000 Cloud • $$ AIMOS — Local, Your GPU, Your Data — TurboQuant KV Compression (ICLR 2026) Starter 20K — RTX 4060 Ti 16 GB, Qwen 14B Business 33K — RTX 3090 24 GB, Qwen 27B Business+ 52K — RTX 5090 32 GB + Speculative Decoding + SGLang Professional 100K+ — 2× RTX 3090 NVLink 48 GB / A100 80 GB TurboQuant: 3-Bit KV → 6× more context Smaller context window than cloud — but: TurboQuant + Architecture compensate for this. And: your data stays with you.
// Pourquoi la VRAM est le goulot d'étranglement
NVIDIA RTX 3090 — 24 GB VRAM + TurboQuant Poids du modèle Qwen 3.5:27B (Q4) — ~20 Go alloués en permanence KV-Cache ~10 Go pour le contexte Reserve ~2 GB 62% Modèle 41% Contexte 7% Tampon Avantage TurboQuant : 8 Go de VRAM en plus = presque trois fois plus de place pour le contexte qu'avec la RTX 4090. AIMOS utilise cette marge pour plus de mémoire, des conversations plus longues et des fenêtres de contexte plus grandes — pour le même coût.

Le bon modèle pour la bonne tâche

Des modèles à 200 milliards de paramètres et 1 million de tokens de contexte sont impressionnants — mais pour des tâches d'entreprise structurées, souvent surdimensionnés. Inversement, le contact client externe exige un modèle plus grand que les requêtes de données internes. AIMOS s'adapte à la tâche.

14B — Starter

Cas simples, catégorisation de documents, e-mails de statut. Fonctionne sur une RTX 4060 Ti (16 Go, à partir de 400 €). Avec Multi-Pass Self-Refinement ~80 % de la qualité 27B.

27B — Business

Assistant IA complet, FuSa Safety Manager, analyses complexes. Appels d'outils précis (~86 % BFCL), 33K de contexte avec TurboQuant KV compression. Sur RTX 3090 (24 Go) ou RTX 5090 avec Speculative Decoding (~7× plus rapide).

Même logiciel

Les deux tailles de modèle fonctionnent sur la même plateforme AIMOS. Une mise à niveau de 27B vers 70B est possible à tout moment — par simple changement de matériel, sans reconfigurer les agents.

Sept principes d'architecture au lieu de la puissance brute

AIMOS ne compense pas la fenêtre de contexte plus petite par du matériel plus puissant — mais par une architecture qui s'assure que l'agent dispose exactement de ce dont il a besoin dans le contexte pour la tâche en cours.

AIMOS compense cela avec sept principes d'architecture, expliqués en détail sur cette page :

Flux de données

Vue d'ensemble du système

Les messages arrivent par différents canaux, sont distribués de manière centralisée et traités par l'agent adapté — sur un GPU partagé.

ENTRÉES Telegram E-Mail Voix Dashboard Shared Listener reçoit tous les canaux PostgreSQL Message Queue Orchestrator VRAM Guard • Gestionnaire de processus Agent Finances Memory • DATEV • ETA Agent Ingénierie Memory • FEM • DXF Agent Logistique Memory • SAP • REST Votre agent Memory • Vos skills GPU — Inférence LLM locale Qwen 3.5:27B • RTX 3090 • 24 GB + TurboQuant séquentiel collecter les messages mettre en cache distribuer Agents Base de données Orchestrator GPU / LLM

Principes d'architecture

Sept principes pour la performance IA locale

Chaque principe répond à une limitation concrète de l'exploitation locale — ensemble, ils permettent une aptitude à l'entreprise sur un seul GPU.

1

Hybrid-Mémoire à long terme

Des faits illimités au lieu de tokens de contexte finis

Chaque agent possède sa propre mémoire avec deux mécanismes de recherche : FTS5 (recherche en texte intégral) et MiniLM-L6-v2 (embeddings vectoriels 384 dimensions). Les résultats sont combinés par Reciprocal Rank Fusion — les souvenirs pertinents sont retrouvés même avec des termes de recherche imprécis.

Au lieu de stocker 200 000 tokens d'historique, l'agent retient les faits pertinents — et les retrouve immédiatement avec la bonne question. Le nombre de souvenirs stockés est illimité.

// Recherche hybride en action
FTS5:  "Fournisseur profilés acier" → 12 résultats
Vector: "Qui fournit des poutrelles ?" → 8 résultats
RRF:   Fusion → Top 20, triés par pertinence
Stocké dans : SQLite (par agent)
Modèle d'embedding : local, pas d'appel cloud
2

Dreaming (consolidation de la mémoire)

Sécuriser les connaissances avant que le contexte ne soit plein

Déclencheur

Non temporisé, mais déclenché par la pression du contexte : lorsque l'historique de conversation dépasse le seuil (12/18/25 messages, selon l'agent), l'orchestrateur lance un cycle Dreaming.

Déroulement

Le LLM analyse l'historique et extrait les faits sous forme de lignes MEM: dans la mémoire à long terme. En parallèle, les fichiers de l'espace de travail (notes, listes de tâches) sont mis à jour via des lignes FILE:.

Résultat

Ensuite, l'historique est effacé — sans perte d'information. Les rapports hebdomadaires (phase 5) résument en outre l'état tous les 7 jours.

3

Agent-Splitting

Des spécialistes plutôt que des généralistes

Au lieu de surcharger un agent avec un énorme prompt système, AIMOS répartit les tâches sur plusieurs spécialistes avec des prompts courts et ciblés. Chaque agent n'occupe que 17–22% de sa fenêtre de contexte pour le prompt système — le reste est disponible pour la mémoire, la conversation et la réponse.

99%
Un agent, 11K Prompt
Timeout, pas de place
17%
Spécialiste A, 1.5K Prompt
83% libre pour le travail
19%
Spécialiste B, 2.8K Prompt
81% libre pour le travail
4

Context Budget Guard

Gestion automatique des tokens avant chaque appel LLM

// Budget VRAM par niveau matériel (à l'échelle)
Starter RTX 4090 14B — 9 GB 13 GB ~26K Tok Business RTX 3090 32B — 19 GB 11 GB ~22K Tok Professional 2× 3090 NVLink 70B — 40 GB 22 GB ~24K Tok Poids du modèle (fixe) KV-Cache (contexte) Réserve Même logiciel, capacité différente. Starter : rapide & efficace. Business : plus précis. Professional : qualité maximale.

KV-Cache (Key-Value Cache) = la mémoire de travail du modèle linguistique pendant une conversation. Elle contient le prompt système, les souvenirs, l'historique de conversation et les tokens réservés pour la réponse. Plus il reste de VRAM pour le KV-Cache, plus les conversations longues et profondes sont possibles.

// Composition de la fenêtre de contexte (14 336 tokens)
Core Prompt ~2.000 Agent ~400-700 Tools ~400-600 Memories ~500-1.500 Calendrier Projets Historique dynamique (15-35 messages) Réponse ~2.000 reserv. Fixe par agent (17-22%) Dynamique (mémoire + conversation + réponse) ! Budget dépassé ? Supprimer les anciens messages • Réduire les résultats d'outils à 200 caract. • Prompt + outils restent complets

Le History-Cap s'adapte dynamiquement : les agents avec un prompt court (17%) conservent jusqu'à 35 messages, les agents avec un prompt long seulement 15. Avant chaque appel LLM, la somme des tokens est vérifiée — si elle dépasse le budget, une réduction automatique est effectuée. Le prompt de l'agent et les définitions d'outils restent toujours intégralement préservés.

5

Injection de contexte structurée

Information maximale avec un minimum de tokens

Au lieu d'insérer calendriers, projets et contacts sous forme de texte libre dans le contexte, AIMOS les injecte sous forme de blocs compacts et structurés. Le LLM comprend ces formats avec un minimum de tokens et peut y réagir immédiatement.

<calendar>
[OVERDUE] 2026-03-20 Devis
[TODAY] 15:00 Réunion
</calendar>
<projects>
[OVERDUE] Statique → Müller
[BLOCKED] Plan manquant
</projects>
<memories>
Entreprise utilise DATEV (imp=9)
Directeur s'appelle Müller (imp=8)
</memories>
6

Exploitation séquentielle de la VRAM

Tous les agents partagent un GPU, un modèle

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Modèle à 27 milliards de paramètres avec Tool-Calling natif. Les modèles plus petits (<20B) échouent au pilotage fiable des outils — un résultat critique pour la production issu de notre évaluation.

Orchestrator & VRAM Guard

L'orchestrateur détecte les nouveaux messages dans la file d'attente DB, démarre l'agent concerné et s'assure qu'un seul agent occupe le GPU à la fois. La surveillance par heartbeat détecte les processus bloqués (>60s) et libère la VRAM bloquée.

SGLang & RadixAttention

Runtime LLM haute performance avec endpoint API compatible OpenAI. RadixAttention : le cache de préfixes est partagé entre les agents — changement d'agent en millisecondes au lieu de secondes.

Keep-Alive

Le modèle reste 30 minutes en VRAM. Tous les agents partagent le même modèle — pas de déchargement lors du changement d'agent. La VRAM n'est libérée qu'après 30 minutes d'inactivité.

// Anatomie d'une requête LLM
System Prompt + Memory Context Budget Guard Token-Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking
7

Escalade et PII-Vault

Fallback automatique pour les tâches complexes

Escalade

Si une tâche dépasse les capacités du modèle local 27B — ou en cas de timeout — l'agent escalade automatiquement vers un LLM cloud plus puissant (p. ex. Claude Sonnet). L'utilisateur ne remarque rien ; il reçoit toujours une réponse.

PII-Vault (Anonymisation)

Avant l'escalade, le PII-Vault anonymise automatiquement toutes les données personnelles : noms, numéros de téléphone, adresses e-mail, noms d'entreprise. Seule la question nettoyée quitte le réseau. La réponse est re-personnalisée localement. Vos données restent toujours locales.