Architecture — AIMOS

Le défi

32 Go de VRAM — c'est tout ce qu'il faut

Les LLM cloud fonctionnent avec d'énormes fenêtres de contexte sur des clusters de serveurs spécialisés. AIMOS fonctionne sur une seule carte graphique dans votre bureau — et atteint, grâce à des moyens architecturaux, une performance qui non seulement suffit pour les tâches d'entreprise, mais fournit souvent de meilleurs résultats que les modèles cloud surdimensionnés.

// Comparaison des fenêtres de contexte (Tokens)

// Pourquoi la VRAM est le goulot d'étranglement

Le bon modèle pour la bonne tâche

Des modèles à 200 milliards de paramètres et 1 million de tokens de contexte sont impressionnants — mais pour des tâches d'entreprise structurées, souvent surdimensionnés. Inversement, le contact client externe exige un modèle plus grand que les requêtes de données internes. AIMOS s'adapte à la tâche.

14B — Starter

Cas simples, catégorisation de documents, e-mails de statut. Fonctionne sur une RTX 4060 Ti (16 Go, à partir de 400 €). Avec Multi-Pass Self-Refinement ~80 % de la qualité 27B.

27B — Business

Assistant IA complet, FuSa Safety Manager, analyses complexes. Appels d'outils précis (~86 % BFCL), 33K de contexte avec TurboQuant KV compression. Sur RTX 3090 (24 Go) ou RTX 5090 avec Speculative Decoding (~7× plus rapide).

Même logiciel

Les deux tailles de modèle fonctionnent sur la même plateforme AIMOS. Une mise à niveau de 27B vers 70B est possible à tout moment — par simple changement de matériel, sans reconfigurer les agents.

Sept principes d'architecture au lieu de la puissance brute

AIMOS ne compense pas la fenêtre de contexte plus petite par du matériel plus puissant — mais par une architecture qui s'assure que l'agent dispose exactement de ce dont il a besoin dans le contexte pour la tâche en cours.

AIMOS compense cela avec sept principes d'architecture, expliqués en détail sur cette page :

1 Mémoire à long terme 2 Dreaming 3 Agent-Splitting 4 Budget Guard 5 Injection de contexte 6 VRAM-Sharing 7 Escalade

Principes d'architecture

Sept principes pour la performance IA locale

Chaque principe répond à une limitation concrète de l'exploitation locale — ensemble, ils permettent une aptitude à l'entreprise sur un seul GPU.

Hybrid-Mémoire à long terme

Des faits illimités au lieu de tokens de contexte finis

Chaque agent possède sa propre mémoire avec deux mécanismes de recherche : FTS5 (recherche en texte intégral) et MiniLM-L6-v2 (embeddings vectoriels 384 dimensions). Les résultats sont combinés par Reciprocal Rank Fusion — les souvenirs pertinents sont retrouvés même avec des termes de recherche imprécis.

Au lieu de stocker 200 000 tokens d'historique, l'agent retient les faits pertinents — et les retrouve immédiatement avec la bonne question. Le nombre de souvenirs stockés est illimité.

// Recherche hybride en action

FTS5: "Fournisseur profilés acier" → 12 résultats

Vector: "Qui fournit des poutrelles ?" → 8 résultats

RRF: Fusion → Top 20, triés par pertinence

Stocké dans : SQLite (par agent)
Modèle d'embedding : local, pas d'appel cloud

Dreaming (consolidation de la mémoire)

Sécuriser les connaissances avant que le contexte ne soit plein

Déclencheur

Non temporisé, mais déclenché par la pression du contexte : lorsque l'historique de conversation dépasse le seuil (12/18/25 messages, selon l'agent), l'orchestrateur lance un cycle Dreaming.

Déroulement

Le LLM analyse l'historique et extrait les faits sous forme de lignes MEM: dans la mémoire à long terme. En parallèle, les fichiers de l'espace de travail (notes, listes de tâches) sont mis à jour via des lignes FILE:.

Résultat

Ensuite, l'historique est effacé — sans perte d'information. Les rapports hebdomadaires (phase 5) résument en outre l'état tous les 7 jours.

Agent-Splitting

Des spécialistes plutôt que des généralistes

Au lieu de surcharger un agent avec un énorme prompt système, AIMOS répartit les tâches sur plusieurs spécialistes avec des prompts courts et ciblés. Chaque agent n'occupe que 17–22% de sa fenêtre de contexte pour le prompt système — le reste est disponible pour la mémoire, la conversation et la réponse.

99%

Un agent, 11K Prompt

Timeout, pas de place

17%

Spécialiste A, 1.5K Prompt

83% libre pour le travail

19%

Spécialiste B, 2.8K Prompt

81% libre pour le travail

Context Budget Guard

Gestion automatique des tokens avant chaque appel LLM

// Budget VRAM par niveau matériel (à l'échelle)

KV-Cache (Key-Value Cache) = la mémoire de travail du modèle linguistique pendant une conversation. Elle contient le prompt système, les souvenirs, l'historique de conversation et les tokens réservés pour la réponse. Plus il reste de VRAM pour le KV-Cache, plus les conversations longues et profondes sont possibles.

// Composition de la fenêtre de contexte (14 336 tokens)

Le History-Cap s'adapte dynamiquement : les agents avec un prompt court (17%) conservent jusqu'à 35 messages, les agents avec un prompt long seulement 15. Avant chaque appel LLM, la somme des tokens est vérifiée — si elle dépasse le budget, une réduction automatique est effectuée. Le prompt de l'agent et les définitions d'outils restent toujours intégralement préservés.

Injection de contexte structurée

Information maximale avec un minimum de tokens

Au lieu d'insérer calendriers, projets et contacts sous forme de texte libre dans le contexte, AIMOS les injecte sous forme de blocs compacts et structurés. Le LLM comprend ces formats avec un minimum de tokens et peut y réagir immédiatement.

[OVERDUE] 2026-03-20 Devis

[TODAY] 15:00 Réunion

</calendar>

[OVERDUE] Statique → Müller

[BLOCKED] Plan manquant

</projects>

Entreprise utilise DATEV (imp=9)

Directeur s'appelle Müller (imp=8)

</memories>

Exploitation séquentielle de la VRAM

Tous les agents partagent un GPU, un modèle

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Modèle à 27 milliards de paramètres avec Tool-Calling natif. Les modèles plus petits (<20B) échouent au pilotage fiable des outils — un résultat critique pour la production issu de notre évaluation.

Orchestrator & VRAM Guard

L'orchestrateur détecte les nouveaux messages dans la file d'attente DB, démarre l'agent concerné et s'assure qu'un seul agent occupe le GPU à la fois. La surveillance par heartbeat détecte les processus bloqués (>60s) et libère la VRAM bloquée.

SGLang & RadixAttention

Runtime LLM haute performance avec endpoint API compatible OpenAI. RadixAttention : le cache de préfixes est partagé entre les agents — changement d'agent en millisecondes au lieu de secondes.

Keep-Alive

Le modèle reste 30 minutes en VRAM. Tous les agents partagent le même modèle — pas de déchargement lors du changement d'agent. La VRAM n'est libérée qu'après 30 minutes d'inactivité.

// Anatomie d'une requête LLM

Escalade et PII-Vault

Fallback automatique pour les tâches complexes

Escalade

Si une tâche dépasse les capacités du modèle local 27B — ou en cas de timeout — l'agent escalade automatiquement vers un LLM cloud plus puissant (p. ex. Claude Sonnet). L'utilisateur ne remarque rien ; il reçoit toujours une réponse.

PII-Vault (Anonymisation)

Avant l'escalade, le PII-Vault anonymise automatiquement toutes les données personnelles : noms, numéros de téléphone, adresses e-mail, noms d'entreprise. Seule la question nettoyée quitte le réseau. La réponse est re-personnalisée localement. Vos données restent toujours locales.

Architecture technique