>
Infrastructure
Matériel, bases de données, portabilité — la base physique et logique de votre SovereignNode.
Infrastructure
Un seul serveur. GPU locale. Aucune dépendance cloud. Le SovereignNode est le cœur de chaque installation AIMOS — un serveur physique ou virtuel qui héberge tous les composants.
Tout fonctionne on-premise : l'inférence LLM, les bases de données, les processus d'agents et les canaux de communication. Aucun octet ne quitte votre réseau — sauf si vous le configurez explicitement (p. ex. messages Telegram).
| Starter | Business | Professional | Enterprise | |
|---|---|---|---|---|
| Hardware | ||||
| GPU | RTX 4060 Ti 16 GB |
RTX 3090 / 5090 24–32 GB |
2× RTX 3090 NVLink 48 GB |
A100 / H100 80+ GB |
| Modèle IA | 14B (Q4) | 27B (Q4) | 70B (Q4) | 70B (Q4) + 9B Draft |
| Speculative Decoding | — | Optionnel sur 5090 : +4B Draft |
+4B Draft ~17K Contexte |
+9B Draft ~75K Contexte |
| Vitesse | ~30 Tok/s | ~35 Tok/s 5090+Spec : ~90 Tok/s |
~20 Tok/s +Spec : ~50 Tok/s |
~40 Tok/s +Spec : ~100 Tok/s |
| Agents IA | 2–4 | 5–10 5090+Spec : 10–20 |
5–10 | 15–30 |
| Technologie | TurboQuant | TurboQuant + SGLang |
TurboQuant + NVLink + Spec. |
TurboQuant + SGLang + Spec. Decoding |
| Matériel env. | à partir de 1 200 EUR GPU ~400 EUR |
à partir de 2 000 EUR 3090 : ~700 | 5090 : ~3 500 |
à partir de 2 500 EUR 2× 3090 + NVLink |
sur demande A100 : à partir de ~3 500 d'occasion |
| Adéquation aux tâches | ||||
| Requêtes ERP | ||||
| Extraction de données | ||||
| Gestion de rendez-vous | ||||
| Support interne | ||||
| Recherche documentaire | ||||
| Contact client | ||||
| Conseil technique | ||||
| Multilingue | ||||
| Compliance | ||||
Basé sur IFEval, MT-Bench, BFCL et Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ cœurs CPU recommandés.
Aperçu de l'architecture
Dual-DB
AIMOS utilise deux systèmes de bases de données avec des responsabilités clairement séparées :
Relais central de messages entre Shared Listener, Orchestrator et agents. Stocke les messages entrants, les journaux d'audit, les mappings PII-Vault et les données de session. Multi-processus grâce au connection pooling.
Chaque agent possède sa propre base de données SQLite avec mémoire sémantique, épisodique et procédurale. Recherche hybride via FTS5 + embeddings vectoriels. Portable par simple copie du fichier.
Interopérabilité
Les agents AIMOS sont portables, compatibles et interopérables grâce aux standards ouverts.
Le format Open Agent Package permet l'export complet d'un agent y compris mémoire, compétences et configuration sous forme d'archive portable.
Le Model Context Protocol permet aux LLM externes (Claude, GPT, etc.) d'accéder aux compétences AIMOS. 39 outils sont disponibles en tant que serveur MCP.
Chaque agent publie une Agent Card (JSON-LD) selon la spécification Google A2A. Les systèmes externes peuvent interroger les capacités, formats d'entrée et niveau de confiance.
Points forts techniques
Pas de hacks texte ni de parsing regex — AIMOS utilise l'API native de tool-calling des LLM. L'agent pilote directement les systèmes, au lieu de simplement décrire les actions.
Reconnaissance vocale (Whisper STT) et synthèse vocale (Piper TTS) dans toutes les langues — les agents comprennent les messages vocaux et répondent dans la langue maternelle de l'utilisateur.
Chaque appel LLM est enregistré: Input-/Output-Tokens, Latenz, Kontextauslastung. Transparence totale des coûts par agent, par conversation, par mois.
Chaque agent sait avec qui il parle sur quel canal. Telegram, e-mail et messages internes sont clairement séparés — pas de confusion entre interlocuteurs.