>

Infrastructure

Système & Infrastructure

Matériel, bases de données, portabilité — la base physique et logique de votre SovereignNode.

Infrastructure

SovereignNode

Un seul serveur. GPU locale. Aucune dépendance cloud. Le SovereignNode est le cœur de chaque installation AIMOS — un serveur physique ou virtuel qui héberge tous les composants.

Tout fonctionne on-premise : l'inférence LLM, les bases de données, les processus d'agents et les canaux de communication. Aucun octet ne quitte votre réseau — sauf si vous le configurez explicitement (p. ex. messages Telegram).

Starter Business Professional Enterprise
Hardware
GPU RTX 4060 Ti
16 GB
RTX 3090 / 5090
24–32 GB
2× RTX 3090 NVLink
48 GB
A100 / H100
80+ GB
Modèle IA 14B (Q4) 27B (Q4) 70B (Q4) 70B (Q4) + 9B Draft
Speculative Decoding Optionnel
sur 5090 : +4B Draft
+4B Draft
~17K Contexte
+9B Draft
~75K Contexte
Vitesse ~30 Tok/s ~35 Tok/s
5090+Spec : ~90 Tok/s
~20 Tok/s
+Spec : ~50 Tok/s
~40 Tok/s
+Spec : ~100 Tok/s
Agents IA 2–4 5–10
5090+Spec : 10–20
5–10 15–30
Technologie TurboQuant TurboQuant
+ SGLang
TurboQuant
+ NVLink + Spec.
TurboQuant + SGLang
+ Spec. Decoding
Matériel env. à partir de 1 200 EUR
GPU ~400 EUR
à partir de 2 000 EUR
3090 : ~700 | 5090 : ~3 500
à partir de 2 500 EUR
2× 3090 + NVLink
sur demande
A100 : à partir de ~3 500 d'occasion
Adéquation aux tâches
Requêtes ERP
Extraction de données
Gestion de rendez-vous
Support interne
Recherche documentaire
Contact client
Conseil technique
Multilingue
Compliance
Excellent Bon Possible, avec limitations Déconseillé

Basé sur IFEval, MT-Bench, BFCL et Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ cœurs CPU recommandés.

Aperçu de l'architecture

SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Agent A Agent B Agent C Shared Listener (Telegram, e-mail, voix)

Dual-DB

Architecture Dual-DB

AIMOS utilise deux systèmes de bases de données avec des responsabilités clairement séparées :

PostgreSQL (base de données relais)

Relais central de messages entre Shared Listener, Orchestrator et agents. Stocke les messages entrants, les journaux d'audit, les mappings PII-Vault et les données de session. Multi-processus grâce au connection pooling.

SQLite (mémoire agent)

Chaque agent possède sa propre base de données SQLite avec mémoire sémantique, épisodique et procédurale. Recherche hybride via FTS5 + embeddings vectoriels. Portable par simple copie du fichier.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (je Agent) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orchestrator

Interopérabilité

Portabilité des agents

Les agents AIMOS sont portables, compatibles et interopérables grâce aux standards ouverts.

Export/Import OAP

Le format Open Agent Package permet l'export complet d'un agent y compris mémoire, compétences et configuration sous forme d'archive portable.

agent_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

Compatibilité MCP

Le Model Context Protocol permet aux LLM externes (Claude, GPT, etc.) d'accéder aux compétences AIMOS. 39 outils sont disponibles en tant que serveur MCP.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Chaque agent publie une Agent Card (JSON-LD) selon la spécification Google A2A. Les systèmes externes peuvent interroger les capacités, formats d'entrée et niveau de confiance.

"name": "Konstruktions-Agent",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: agent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Agent aktiv

Points forts techniques

Ce qui distingue AIMOS

Appel d'outils natif

Pas de hacks texte ni de parsing regex — AIMOS utilise l'API native de tool-calling des LLM. L'agent pilote directement les systèmes, au lieu de simplement décrire les actions.

Parole multilingue

Reconnaissance vocale (Whisper STT) et synthèse vocale (Piper TTS) dans toutes les langues — les agents comprennent les messages vocaux et répondent dans la langue maternelle de l'utilisateur.

Suivi des tokens

Chaque appel LLM est enregistré: Input-/Output-Tokens, Latenz, Kontextauslastung. Transparence totale des coûts par agent, par conversation, par mois.

Conversation Threading

Chaque agent sait avec qui il parle sur quel canal. Telegram, e-mail et messages internes sont clairement séparés — pas de confusion entre interlocuteurs.