Infrastruttura
Hardware, database, portabilità — la base fisica e logica del Suo SovereignNode.
Infrastruttura
Un singolo server. GPU locale. Nessuna dipendenza dal cloud. Il SovereignNode è il cuore di ogni installazione AIMOS — un server fisico o virtuale che ospita tutti i componenti.
Tutto funziona on-premise: inferenza LLM, database, processi degli agenti e canali di comunicazione. Nessun byte lascia la vostra rete — a meno che non lo configuriate esplicitamente (es. messaggi Telegram).
| Starter | Business | Professional | Enterprise | |
|---|---|---|---|---|
| Hardware | ||||
| GPU | RTX 4060 Ti 16 GB |
RTX 3090 / 5090 24–32 GB |
2× RTX 3090 NVLink 48 GB |
A100 / H100 80+ GB |
| Modello IA | 14B (Q4) | 27B (Q4) | 70B (Q4) | 70B (Q4) + 9B Draft |
| Speculative Decoding | — | Opzionale su 5090: +4B Draft |
+4B Draft ~17K Context |
+9B Draft ~75K Context |
| Velocità | ~30 Tok/s | ~35 Tok/s 5090+Spec : ~90 Tok/s |
~20 Tok/s +Spec : ~50 Tok/s |
~40 Tok/s +Spec : ~100 Tok/s |
| Agenti IA | 2–4 | 5–10 5090+Spec : 10–20 |
5–10 | 15–30 |
| Tecnologia | TurboQuant | TurboQuant + SGLang |
TurboQuant + NVLink + Spec. |
TurboQuant + SGLang + Spec. Decoding |
| Hardware ca. | da 1.200 EUR GPU ~400 EUR |
da 2.000 EUR 3090 : ~700 | 5090 : ~3 500 |
da 2.500 EUR 2× 3090 + NVLink |
su richiesta A100 : A100: da ~3.500 usato |
| Idoneità per attività | ||||
| Query ERP | ||||
| Estrazione dati | ||||
| Gestione appuntamenti | ||||
| Supporto interno | ||||
| Ricerca documenti | ||||
| Contatto clienti | ||||
| Consulenza tecnica | ||||
| Multilingue | ||||
| Compliance | ||||
Basé sur IFEval, MT-Bench, BFCL et Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ core CPU raccomandati.
Panoramica dell'architettura
Dual-DB
AIMOS utilizza due sistemi di database con responsabilità chiaramente separate:
Inoltro centrale dei messaggi tra Shared Listener, Orchestrator e agenti. Memorizza messaggi in entrata, audit log, mappature PII-Vault e dati di sessione. Multi-processo grazie al connection pooling.
Ogni agente ha il proprio database SQLite con memoria semantica, episodica e procedurale. Ricerca ibrida tramite FTS5 + vettori embeddings. Portabile tramite semplice copia del file.
Interoperabilità
Gli agenti AIMOS sono portabili, compatibili e interoperabili grazie a standard aperti.
Il formato Open Agent Package consente l'esportazione completa di un agente inclusi memoria, skills e configurazione come archivio portabile.
Il Model Context Protocol consente a LLM esterni (Claude, GPT, ecc.) l'accesso agli skills AIMOS. 39 strumenti sono disponibili come server MCP.
Ogni agente pubblica un'Agent Card (JSON-LD) secondo la specifica Google A2A. I sistemi esterni possono interrogare capacità, formati di input e livello di fiducia.
Punti di forza tecnici
Nessun hack testuale o parsing regex — AIMOS utilizza l'API nativa di tool-calling del LLM. L'agente controlla i sistemi direttamente, anziché limitarsi a descrivere le azioni.
Riconoscimento vocale (Whisper STT) e sintesi vocale (Piper TTS) in tutte le lingue — gli agenti comprendono i messaggi vocali e rispondono nella lingua madre dell'utente.
Ogni chiamata LLM viene registrata: token input/output, latenza, utilizzo del contesto. Piena trasparenza dei costi per agente, per conversazione, per mese.
Ogni agente sa con chi sta parlando su quale canale. Telegram, e-mail e messaggi interni vengono separati in modo pulito — nessuna confusione tra interlocutori.