Documentation technique
Du SovereignNode à l'appel LLM — voici comment fonctionne AIMOS sous le capot.
Diagramme de stack
Le flux de données complet du message utilisateur à la réponse — toutes les couches en un coup d'oeil.
Inferenz
Inférence locale via SGLang. Fonctionnement séquentiel. Gestion intelligente du VRAM.
Modèle à 27 milliards de paramètres avec Tool-Calling natif. Les modèles plus petits (<20B) échouent au contrôle fiable des outils — un résultat critique pour la production issu de notre évaluation.
Runtime LLM haute performance avec endpoint API compatible OpenAI. RadixAttention : le cache de préfixe est partagé entre les agents — pas de rechargement lors du changement d'agent.
Le VRAM Guard garantit qu'un seul agent accède au GPU à la fois. Les requêtes sont mises en file d'attente dans la base de données et traitées séquentiellement — pas d'OOM, pas de conflit VRAM.
Le modèle reste 30 minutes en VRAM. Tous les agents partagent le même modèle — pas de déchargement lors du changement d'agent. Le VRAM n'est libéré qu'après 30 minutes d'inactivité.
Gestion du contexte
14 336 tokens de fenêtre de contexte. Chaque agent utilise 17–22% pour son prompt — le reste est réservé à la mémoire, aux conversations et aux appels d'outils.
Avant chaque appel LLM, la somme des tokens est vérifiée. Si elle dépasse le budget, l'historique de conversation est automatiquement raccourci — les messages les plus anciens en premier. Le prompt de l'agent et les définitions d'outils restent toujours intacts.
Le budget de contexte disponible est calculé dynamiquement : des prompts d'agent plus courts laissent plus de place pour l'historique et les Memories. Les agents avec des ensembles d'outils étendus compensent par des system prompts plus courts.
Au lieu de surcharger un agent avec un prompt énorme, AIMOS répartit le travail sur des spécialistes avec des prompts courts et ciblés. Chaque agent maîtrise son domaine — moins de prompt, plus de place pour le contexte.
Infrastructure
Un seul serveur. GPU local. Aucune dépendance cloud. Le SovereignNode est le cœur de chaque installation AIMOS — un serveur physique ou virtuel qui héberge tous les composants.
Tout fonctionne on-premise : l'inférence LLM, les bases de données, les processus d'agents et les canaux de communication. Aucun octet ne quitte votre réseau — sauf si vous le configurez explicitement (ex. messages Telegram).
| Composant | Minimum | Recommandé |
|---|---|---|
| GPU | NVIDIA RTX 3090 (24 GB VRAM) | NVIDIA RTX 5090 (32 GB VRAM) |
| RAM | 32 GB DDR4 | 64 GB DDR5 |
| Stockage | 256 GB SSD | 1 TB NVMe |
| CPU | 8 cœurs | 16+ cœurs |
| OS | Ubuntu 24.04 LTS | Ubuntu 26.04 LTS |
Dual-DB
AIMOS utilise deux systèmes de bases de données avec des responsabilités clairement séparées :
Relais central de messages entre Shared Listener, Orchestrateur et agents. Stocke les messages entrants, les journaux d'audit, les mappings PII-Vault et les données de session. Multi-processus grâce au connection pooling.
Chaque agent a sa propre base de données SQLite avec mémoire sémantique, épisodique et procédurale. Recherche hybride via FTS5 + embeddings vectoriels. Portable par simple copie du fichier.
Interopérabilité
Les agents AIMOS sont portables, compatibles et interopérables grâce aux standards ouverts.
Le format Open Agent Package permet l'exportation complète d'un agent y compris la mémoire, les compétences et la configuration en archive portable.
Le Model Context Protocol permet aux LLMs externes (Claude, GPT, etc.) d'accéder aux compétences AIMOS. 39 outils sont disponibles en tant que serveur MCP.
Chaque agent publie une Agent Card (JSON-LD) selon la spécification Google A2A. Les systèmes externes peuvent interroger les compétences, formats d'entrée et niveau de confiance.
Points forts techniques
Pas de hacks textuels ou d'analyse regex — AIMOS utilise l'API native de Tool-Calling du LLM. L'agent contrôle les systèmes directement, au lieu de simplement décrire les actions.
Reconnaissance vocale (Whisper STT) et synthèse vocale (Piper TTS) dans toutes les langues — les agents comprennent les messages vocaux et répondent dans la langue maternelle de l'utilisateur.
Chaque appel LLM est enregistré : tokens d'entrée/sortie, latence, utilisation du contexte. Transparence totale des coûts par agent, par conversation, par mois.
Chaque agent sait avec qui il parle sur quel canal. Telegram, e-mail et messages internes sont proprement séparés — aucune confusion entre les interlocuteurs.