Infrastruttura

Sistema & Infrastruttura

Hardware, database, portabilità — la base fisica e logica del Suo SovereignNode.

Infrastruttura

SovereignNode

Un singolo server. GPU locale. Nessuna dipendenza dal cloud. Il SovereignNode è il cuore di ogni installazione AIMOS — un server fisico o virtuale che ospita tutti i componenti.

Tutto funziona on-premise: inferenza LLM, database, processi degli agenti e canali di comunicazione. Nessun byte lascia la vostra rete — a meno che non lo configuriate esplicitamente (es. messaggi Telegram).

Starter Business Professional Enterprise
Hardware
GPU RTX 4060 Ti
16 GB
RTX 3090 / 5090
24–32 GB
2× RTX 3090 NVLink
48 GB
A100 / H100
80+ GB
Modello IA 14B (Q4) 27B (Q4) 70B (Q4) 70B (Q4) + 9B Draft
Speculative Decoding Opzionale
su 5090: +4B Draft
+4B Draft
~17K Context
+9B Draft
~75K Context
Velocità ~30 Tok/s ~35 Tok/s
5090+Spec : ~90 Tok/s
~20 Tok/s
+Spec : ~50 Tok/s
~40 Tok/s
+Spec : ~100 Tok/s
Agenti IA 2–4 5–10
5090+Spec : 10–20
5–10 15–30
Tecnologia TurboQuant TurboQuant
+ SGLang
TurboQuant
+ NVLink + Spec.
TurboQuant + SGLang
+ Spec. Decoding
Hardware ca. da 1.200 EUR
GPU ~400 EUR
da 2.000 EUR
3090 : ~700 | 5090 : ~3 500
da 2.500 EUR
2× 3090 + NVLink
su richiesta
A100 : A100: da ~3.500 usato
Idoneità per attività
Query ERP
Estrazione dati
Gestione appuntamenti
Supporto interno
Ricerca documenti
Contatto clienti
Consulenza tecnica
Multilingue
Compliance
Excellent Bon Possibile, con limitazioni Non raccomandato

Basé sur IFEval, MT-Bench, BFCL et Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ core CPU raccomandati.

Panoramica dell'architettura

SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Agent A Agent B Agent C Shared Listener (Telegram, E-Mail, Voce)

Dual-DB

Dual-DB-Architektur

AIMOS utilizza due sistemi di database con responsabilità chiaramente separate:

PostgreSQL (Relay-Datenbank)

Inoltro centrale dei messaggi tra Shared Listener, Orchestrator e agenti. Memorizza messaggi in entrata, audit log, mappature PII-Vault e dati di sessione. Multi-processo grazie al connection pooling.

SQLite (Agent-Memory)

Ogni agente ha il proprio database SQLite con memoria semantica, episodica e procedurale. Ricerca ibrida tramite FTS5 + vettori embeddings. Portabile tramite semplice copia del file.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (per agente) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orchestrator

Interoperabilità

Portabilità degli agenti

Gli agenti AIMOS sono portabili, compatibili e interoperabili grazie a standard aperti.

OAP Export/Import

Il formato Open Agent Package consente l'esportazione completa di un agente inclusi memoria, skills e configurazione come archivio portabile.

agent_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

Compatibilità MCP

Il Model Context Protocol consente a LLM esterni (Claude, GPT, ecc.) l'accesso agli skills AIMOS. 39 strumenti sono disponibili come server MCP.

sql_query file_read rest_call memory_search +35 altri

A2A Agent Cards

Ogni agente pubblica un'Agent Card (JSON-LD) secondo la specifica Google A2A. I sistemi esterni possono interrogare capacità, formati di input e livello di fiducia.

"name": "Agente di progettazione",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: agent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Agente attivo

Punti di forza tecnici

Cosa distingue AIMOS

Native Tool-Calling

Nessun hack testuale o parsing regex — AIMOS utilizza l'API nativa di tool-calling del LLM. L'agente controlla i sistemi direttamente, anziché limitarsi a descrivere le azioni.

Voce multilingue

Riconoscimento vocale (Whisper STT) e sintesi vocale (Piper TTS) in tutte le lingue — gli agenti comprendono i messaggi vocali e rispondono nella lingua madre dell'utente.

Token-Tracking

Ogni chiamata LLM viene registrata: token input/output, latenza, utilizzo del contesto. Piena trasparenza dei costi per agente, per conversazione, per mese.

Conversation Threading

Ogni agente sa con chi sta parlando su quale canale. Telegram, e-mail e messaggi interni vengono separati in modo pulito — nessuna confusione tra interlocutori.