Documentation technique

Architecture Technique

Du SovereignNode à l'appel LLM — voici comment fonctionne AIMOS sous le capot.

Diagramme de stack

Vue d'ensemble du système

Le flux de données complet du message utilisateur à la réponse — toutes les couches en un coup d'oeil.

Inferenz

Inférence IA locale

Inférence locale via SGLang. Fonctionnement séquentiel. Gestion intelligente du VRAM.

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Modèle à 27 milliards de paramètres avec Tool-Calling natif. Les modèles plus petits (<20B) échouent au contrôle fiable des outils — un résultat critique pour la production issu de notre évaluation.

SGLang Runtime

Runtime LLM haute performance avec endpoint API compatible OpenAI. RadixAttention : le cache de préfixe est partagé entre les agents — pas de rechargement lors du changement d'agent.

Fonctionnement séquentiel

Le VRAM Guard garantit qu'un seul agent accède au GPU à la fois. Les requêtes sont mises en file d'attente dans la base de données et traitées séquentiellement — pas d'OOM, pas de conflit VRAM.

Keep-Alive / RadixAttention

Le modèle reste 30 minutes en VRAM. Tous les agents partagent le même modèle — pas de déchargement lors du changement d'agent. Le VRAM n'est libéré qu'après 30 minutes d'inactivité.

// Anatomie d'une requête LLM

Gestion du contexte

Architecture de contexte

14 336 tokens de fenêtre de contexte. Chaque agent utilise 17–22% pour son prompt — le reste est réservé à la mémoire, aux conversations et aux appels d'outils.

// Composition de la fenêtre de contexte (14 336 tokens)

Context Budget Guard

Avant chaque appel LLM, la somme des tokens est vérifiée. Si elle dépasse le budget, l'historique de conversation est automatiquement raccourci — les messages les plus anciens en premier. Le prompt de l'agent et les définitions d'outils restent toujours intacts.

Compression dynamique

Le budget de contexte disponible est calculé dynamiquement : des prompts d'agent plus courts laissent plus de place pour l'historique et les Memories. Les agents avec des ensembles d'outils étendus compensent par des system prompts plus courts.

Agent-Splitting

Au lieu de surcharger un agent avec un prompt énorme, AIMOS répartit le travail sur des spécialistes avec des prompts courts et ciblés. Chaque agent maîtrise son domaine — moins de prompt, plus de place pour le contexte.

Infrastructure

SovereignNode

Un seul serveur. GPU local. Aucune dépendance cloud. Le SovereignNode est le cœur de chaque installation AIMOS — un serveur physique ou virtuel qui héberge tous les composants.

Tout fonctionne on-premise : l'inférence LLM, les bases de données, les processus d'agents et les canaux de communication. Aucun octet ne quitte votre réseau — sauf si vous le configurez explicitement (ex. messages Telegram).

Composant	Minimum	Recommandé
GPU	NVIDIA RTX 3090 (24 GB VRAM)	NVIDIA RTX 5090 (32 GB VRAM)
RAM	32 GB DDR4	64 GB DDR5
Stockage	256 GB SSD	1 TB NVMe
CPU	8 cœurs	16+ cœurs
OS	Ubuntu 24.04 LTS	Ubuntu 26.04 LTS

Dual-DB

Architecture Dual-DB

AIMOS utilise deux systèmes de bases de données avec des responsabilités clairement séparées :

PostgreSQL (Base de données Relay)

Relais central de messages entre Shared Listener, Orchestrateur et agents. Stocke les messages entrants, les journaux d'audit, les mappings PII-Vault et les données de session. Multi-processus grâce au connection pooling.

SQLite (Mémoire Agent)

Chaque agent a sa propre base de données SQLite avec mémoire sémantique, épisodique et procédurale. Recherche hybride via FTS5 + embeddings vectoriels. Portable par simple copie du fichier.

Interopérabilité

Portabilité des agents

Les agents AIMOS sont portables, compatibles et interopérables grâce aux standards ouverts.

OAP Export/Import

Le format Open Agent Package permet l'exportation complète d'un agent y compris la mémoire, les compétences et la configuration en archive portable.

agent_export.oap

config.yaml

memory.sqlite

skills/

prompts/

MCP Bridge (39 outils)

Le Model Context Protocol permet aux LLMs externes (Claude, GPT, etc.) d'accéder aux compétences AIMOS. 39 outils sont disponibles en tant que serveur MCP.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Chaque agent publie une Agent Card (JSON-LD) selon la spécification Google A2A. Les systèmes externes peuvent interroger les compétences, formats d'entrée et niveau de confiance.

"name": "Agent Construction",

"skills": ["cad_read", "bom_gen"],

"trust_ring": 1

Points forts techniques

Ce qui distingue AIMOS

Native Tool-Calling

Pas de hacks textuels ou d'analyse regex — AIMOS utilise l'API native de Tool-Calling du LLM. L'agent contrôle les systèmes directement, au lieu de simplement décrire les actions.

Voix multilingue

Reconnaissance vocale (Whisper STT) et synthèse vocale (Piper TTS) dans toutes les langues — les agents comprennent les messages vocaux et répondent dans la langue maternelle de l'utilisateur.

Suivi des tokens

Chaque appel LLM est enregistré : tokens d'entrée/sortie, latence, utilisation du contexte. Transparence totale des coûts par agent, par conversation, par mois.

Conversation Threading

Chaque agent sait avec qui il parle sur quel canal. Telegram, e-mail et messages internes sont proprement séparés — aucune confusion entre les interlocuteurs.