Documentation technique

Architecture Technique

Du SovereignNode à l'appel LLM — voici comment fonctionne AIMOS sous le capot.

Diagramme de stack

Vue d'ensemble du système

Le flux de données complet du message utilisateur à la réponse — toutes les couches en un coup d'oeil.

CANAUX UTILISATEUR Telegram E-Mail Voix (STT/TTS) Dashboard Shared Listener PostgreSQL (Message Relay) Orchestrator (VRAM Guard, Process Manager) Processus Agent (Memory + Skills + Prompt-Builder) LLM (Inférence locale) Chemin de réponse Kernel Base de données Orchestration Inférence

Inferenz

Inférence IA locale

Inférence locale via SGLang. Fonctionnement séquentiel. Gestion intelligente du VRAM.

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Modèle à 27 milliards de paramètres avec Tool-Calling natif. Les modèles plus petits (<20B) échouent au contrôle fiable des outils — un résultat critique pour la production issu de notre évaluation.

SGLang Runtime

Runtime LLM haute performance avec endpoint API compatible OpenAI. RadixAttention : le cache de préfixe est partagé entre les agents — pas de rechargement lors du changement d'agent.

Fonctionnement séquentiel

Le VRAM Guard garantit qu'un seul agent accède au GPU à la fois. Les requêtes sont mises en file d'attente dans la base de données et traitées séquentiellement — pas d'OOM, pas de conflit VRAM.

Keep-Alive / RadixAttention

Le modèle reste 30 minutes en VRAM. Tous les agents partagent le même modèle — pas de déchargement lors du changement d'agent. Le VRAM n'est libéré qu'après 30 minutes d'inactivité.

// Anatomie d'une requête LLM
System Prompt + Contexte Mémoire Cognitive Balance Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking

Gestion du contexte

Architecture de contexte

14 336 tokens de fenêtre de contexte. Chaque agent utilise 17–22% pour son prompt — le reste est réservé à la mémoire, aux conversations et aux appels d'outils.

// Composition de la fenêtre de contexte (14 336 tokens)
Core Prompt ~2.000 Agent ~400-700 Tools ~400-600 Memories ~500-1.500 Calendrier ~200 Chats ~300-600 Historique dynamisch Réponse ~2 000 réserv. Fixe par agent (17-22%) Dynamique (Mémoire + Conversation + Réponse) ! Context Budget Guard Trimming automatique : si le contexte dépasse le budget, l'historique de conversation est compressé avant le démarrage de l'appel LLM. zZ Dreaming-Trigger Si l'historique dépasse le seuil, l'agent consolide les connaissances en mémoire à long terme (Dreaming) et vide l'historique.

Context Budget Guard

Avant chaque appel LLM, la somme des tokens est vérifiée. Si elle dépasse le budget, l'historique de conversation est automatiquement raccourci — les messages les plus anciens en premier. Le prompt de l'agent et les définitions d'outils restent toujours intacts.

Compression dynamique

Le budget de contexte disponible est calculé dynamiquement : des prompts d'agent plus courts laissent plus de place pour l'historique et les Memories. Les agents avec des ensembles d'outils étendus compensent par des system prompts plus courts.

Agent-Splitting

Au lieu de surcharger un agent avec un prompt énorme, AIMOS répartit le travail sur des spécialistes avec des prompts courts et ciblés. Chaque agent maîtrise son domaine — moins de prompt, plus de place pour le contexte.

Infrastructure

SovereignNode

Un seul serveur. GPU local. Aucune dépendance cloud. Le SovereignNode est le cœur de chaque installation AIMOS — un serveur physique ou virtuel qui héberge tous les composants.

Tout fonctionne on-premise : l'inférence LLM, les bases de données, les processus d'agents et les canaux de communication. Aucun octet ne quitte votre réseau — sauf si vous le configurez explicitement (ex. messages Telegram).

Composant Minimum Recommandé
GPU NVIDIA RTX 3090 (24 GB VRAM) NVIDIA RTX 5090 (32 GB VRAM)
RAM 32 GB DDR4 64 GB DDR5
Stockage 256 GB SSD 1 TB NVMe
CPU 8 cœurs 16+ cœurs
OS Ubuntu 24.04 LTS Ubuntu 26.04 LTS
SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Agent A Agent B Agent C Shared Listener (Telegram, E-mail, Voix)

Dual-DB

Architecture Dual-DB

AIMOS utilise deux systèmes de bases de données avec des responsabilités clairement séparées :

PostgreSQL (Base de données Relay)

Relais central de messages entre Shared Listener, Orchestrateur et agents. Stocke les messages entrants, les journaux d'audit, les mappings PII-Vault et les données de session. Multi-processus grâce au connection pooling.

SQLite (Mémoire Agent)

Chaque agent a sa propre base de données SQLite avec mémoire sémantique, épisodique et procédurale. Recherche hybride via FTS5 + embeddings vectoriels. Portable par simple copie du fichier.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (par agent) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orchestrator

Interopérabilité

Portabilité des agents

Les agents AIMOS sont portables, compatibles et interopérables grâce aux standards ouverts.

OAP Export/Import

Le format Open Agent Package permet l'exportation complète d'un agent y compris la mémoire, les compétences et la configuration en archive portable.

agent_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

MCP Bridge (39 outils)

Le Model Context Protocol permet aux LLMs externes (Claude, GPT, etc.) d'accéder aux compétences AIMOS. 39 outils sont disponibles en tant que serveur MCP.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Chaque agent publie une Agent Card (JSON-LD) selon la spécification Google A2A. Les systèmes externes peuvent interroger les compétences, formats d'entrée et niveau de confiance.

"name": "Agent Construction",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: agent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Agent actif

Points forts techniques

Ce qui distingue AIMOS

Native Tool-Calling

Pas de hacks textuels ou d'analyse regex — AIMOS utilise l'API native de Tool-Calling du LLM. L'agent contrôle les systèmes directement, au lieu de simplement décrire les actions.

Voix multilingue

Reconnaissance vocale (Whisper STT) et synthèse vocale (Piper TTS) dans toutes les langues — les agents comprennent les messages vocaux et répondent dans la langue maternelle de l'utilisateur.

Suivi des tokens

Chaque appel LLM est enregistré : tokens d'entrée/sortie, latence, utilisation du contexte. Transparence totale des coûts par agent, par conversation, par mois.

Conversation Threading

Chaque agent sait avec qui il parle sur quel canal. Telegram, e-mail et messages internes sont proprement séparés — aucune confusion entre les interlocuteurs.