Documentazione tecnica

Architettura tecnica

Dalla sfida alla chiamata LLM — i principi architetturali di AIMOS.

La sfida

32 GB VRAM — non serve di più

I LLM cloud lavorano con finestre di contesto enormi su cluster di server specializzati. AIMOS funziona su una singola scheda grafica nel Suo ufficio — e raggiunge con mezzi architetturali una prestazione che per le attività aziendali non solo è sufficiente, ma spesso ottiene risultati migliori rispetto ai modelli cloud sovradimensionati.

// Confronto delle finestre di contesto (Token)
250K 500K 750K 1.000K Gemini 2.5 1.000.000 Cloud • $$$ Claude 4 200.000 Cloud • $$ GPT-4o 128.000 Cloud • $$ AIMOS — Local, Your GPU, Your Data — TurboQuant KV Compression (ICLR 2026) Starter 20K — RTX 4060 Ti 16 GB, Qwen 14B Business 33K — RTX 3090 24 GB, Qwen 27B Business+ 52K — RTX 5090 32 GB + Speculative Decoding + SGLang Professional 100K+ — 2× RTX 3090 NVLink 48 GB / A100 80 GB TurboQuant: 3-Bit KV → 6× more context Smaller context window than cloud — but: TurboQuant + Architecture compensate for this. And: your data stays with you.
// Perché la VRAM è il collo di bottiglia
NVIDIA RTX 3090 — 24 GB VRAM + TurboQuant Pesi del modello Qwen 3.5:27B (Q4) — ~17 GB allocato fisso KV-Cache ~13 GB per il contesto Riserva ~2 GB 53% Modello 31% Contesto 7% Riserva Vantaggio TurboQuant: 8 GB di VRAM in più = quasi tre volte lo spazio per il contesto rispetto alla RTX 4090. AIMOS utilizza questo margine per più memoria, conversazioni più lunghe e finestre di contesto più grandi — a parità di costi.

Il modello giusto per il compito giusto

Modelli con 200 miliardi di parametri e 1 milione di token di contesto sono impressionanti — ma per attività aziendali strutturate spesso sovradimensionati. Al contrario, il contatto con clienti esterni richiede un modello più grande delle query interne. AIMOS si adatta all'attività.

14B — Starter

Casi semplici, categorizzazione documenti, e-mail di stato. Funziona su una RTX 4060 Ti (16 GB, da 400 €). Con Multi-Pass Self-Refinement ~80 % della qualità 27B.

27B — Business

Assistente IA completo, FuSa Safety Manager, analisi complesse. Chiamate strumenti precise (~86 % BFCL), 33K di contesto con TurboQuant KV compression. Su RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× più veloce).

Stesso software

Entrambe le dimensioni del modello funzionano sulla stessa piattaforma AIMOS. Un upgrade da 27B a 70B è possibile in qualsiasi momento — sostituendo l'hardware, senza riconfigurare gli agenti.

Sette principi architetturali anziché pura potenza di calcolo

AIMOS non compensa la finestra di contesto più piccola con hardware più potente — bensì attraverso un'architettura che fa sì che l'agente abbia esattamente nel contesto ciò di cui ha bisogno per l'attività corrente.

AIMOS compensa ciò con sette principi architetturali, che vengono spiegati in dettaglio in questa pagina:

Flusso dei dati

Panoramica del sistema

I messaggi arrivano attraverso diversi canali, vengono distribuiti centralmente ed elaborati dall'agente appropriato — su una GPU condivisa.

INGRESSI Telegram E-Mail Voce Dashboard Shared Listener riceve tutti i canali PostgreSQL Message Queue Orchestrator VRAM Guard • Gestore dei processi Agente finanziario Memory • DATEV • ETA Agente di costruzione Memory • FEM • DXF Agente logistico Memory • SAP • REST Il vostro agente Memory • i Suoi skills GPU — Inferenza LLM locale Qwen 3.5:27B • RTX 3090 • 24 GB + TurboQuant sequenziale Messaggi raccogliere memorizzare distribuire Agenti Database Orchestrator GPU / LLM

Principi architetturali

Sette principi per le prestazioni IA locali

Ogni principio affronta una limitazione concreta dell'esercizio locale — insieme consentono l'idoneità aziendale su una singola GPU.

1

Hybrid-Memoria a lungo termine

Fatti illimitati anziché token di contesto finiti

Ogni agente ha una propria memoria con due meccanismi di ricerca: FTS5 (ricerca full-text) e MiniLM-L6-v2 (embedding vettoriali a 384 dimensioni). I risultati vengono combinati tramite Reciprocal Rank Fusion — i ricordi rilevanti vengono trovati anche con termini di ricerca imprecisi.

Anziché memorizzare 200.000 token di cronologia, l'agente si ricorda i fatti rilevanti — e li ritrova immediatamente con la domanda giusta. Il numero di ricordi memorizzati è illimitato.

// Ricerca ibrida in azione
FTS5:  "Fornitore profili acciaio" → 12 risultati
Vector: "Chi fornisce travi?" → 8 risultati
RRF:   Fusione → Top 20, ordinati per rilevanza
Memorizzato in: SQLite (per agente)
Modello embedding: locale, nessuna chiamata cloud
2

Dreaming (Consolidamento della memoria)

Salvare la conoscenza prima che il contesto sia pieno

Attivazione

Non temporizzato, ma attivato dalla pressione del contesto: Se la cronologia della conversazione supera la soglia (12/18/25 messaggi, a seconda dell'agente), l'orchestratore avvia un ciclo Dreaming.

Procedura

Il LLM analizza la cronologia ed estrae fatti come MEM:-righe nella memoria a lungo termine. Contemporaneamente i file del workspace (note, liste attività) vengono aggiornati tramite FILE: aggiornati.

Risultato

Successivamente la cronologia viene cancellata — senza perdita di informazioni. I report settimanali (fase 5) riassumono inoltre lo stato ogni 7 giorni.

3

Agent-Splitting

Specialisti anziché tuttofare

Anziché sovraccaricare un agente con un enorme system prompt, AIMOS distribuisce le attività su più specialisti con prompt brevi e focalizzati. Ogni agente occupa solo il 17–22% della propria finestra di contesto per il system prompt — il resto rimane per memoria, conversazione e risposta.

99%
Un agente, prompt 11K
Timeout, nessuno spazio
17%
Specialista A, 1.5K Prompt
83% libero per il lavoro
19%
Specialista B, 2.8K Prompt
81% libero per il lavoro
4

Context Budget Guard

Gestione automatica dei token prima di ogni chiamata LLM

// Budget VRAM per livello hardware (in scala)
Starter RTX 4090 14B — 9 GB 13 GB ~26K Tok Business RTX 3090 32B — 19 GB 11 GB ~22K Tok Professional 2× 3090 NVLink 70B — 40 GB 22 GB ~24K Tok Pesi del modello (fisso) KV-Cache (contesto) Riserva Stesso software, capacità diversa. Starter: veloce & efficiente. Business: più preciso. Professional: qualità massima.

KV-Cache (Key-Value Cache) = la memoria di lavoro del modello linguistico durante una conversazione. Contiene il prompt di sistema, i ricordi, la cronologia della conversazione e i token riservati per la risposta. Più VRAM rimane per il KV-Cache, più lunghe e profonde sono le conversazioni possibili.

// Composizione della finestra di contesto (14.336 Token)
Core Prompt ~2.000 Agent ~400-700 Tools ~400-600 Memories ~500-1.500 Calendario Progetti Cronologia conversazione dinamico (15-35 messaggi) completa ~2.000 reserv. Fix pro Agent (17-22%) Dinamico (Memoria + Conversazione + Risposta) ! Budget superato? Rimuovere i messaggi più vecchi • Abbreviare i risultati degli strumenti a 200 caratteri • Prompt + strumenti restano completi

Il limite della cronologia si adatta dinamicamente: agenti con prompt breve (17%) mantengono fino a 35 messaggi, agenti con prompt lungo solo 15. Prima di ogni chiamata LLM viene verificato il totale dei token — se supera il budget, viene automaticamente abbreviata. Il prompt dell'agente e le definizioni degli strumenti vengono sempre conservati integralmente.

5

Iniezione strutturata del contesto

Massima informazione con token minimi

Anziché inserire calendario, progetti e contatti come testo libero nel contesto, AIMOS inietta come blocchi compatti e strutturati. Il LLM comprende questi formati con token minimi e può reagire immediatamente.

<calendar>
[OVERDUE] 2026-03-20 Offerta
[TODAY] 15:00 Riunione
</calendar>
<projects>
[OVERDUE] Statica → Müller
[BLOCKED] Disegno mancante
</projects>
<memories>
Azienda usa DATEV (imp=9)
Il capo si chiama Müller (imp=8)
</memories>
6

Funzionamento VRAM sequenziale

Tutti gli agenti condividono una GPU, un modello

Qwen 3.5:27B (Q4, ~17 GB VRAM)

modello da 32 miliardi di parametri con tool-calling nativo. Modelli più piccoli (<20B) falliscono nel controllo affidabile degli strumenti — un risultato critico per la produzione della nostra valutazione.

Orchestrator & VRAM Guard

L'orchestratore rileva nuovi messaggi nella coda DB, avvia l'agente competente e garantisce che solo un agente alla volta occupi la GPU. Il monitoraggio heartbeat rileva processi bloccati (>60s) e libera la VRAM bloccata.

SGLang & RadixAttention

Runtime LLM ad alte prestazioni con endpoint API compatibile OpenAI. RadixAttention: la cache dei prefissi viene condivisa tra agenti — cambio agente in millisecondi anziché secondi.

Keep-Alive

Il modello resta 30 minuti nella VRAM. Tutti gli agenti condividono lo stesso modello — nessuno scaricamento al cambio agente. Solo dopo 30 minuti di inattività la VRAM viene liberata.

// Anatomia di una richiesta LLM
System Prompt + Memory Context Budget Guard Token-Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking
7

Escalazione e PII-Vault

Fallback automatico per attività complesse

Escalazione

Se un'attività supera le capacità del modello locale 27B — o si verifica un timeout — l'agente escala automaticamente a un LLM cloud più potente (ad es. Claude Sonnet). L'utente non se ne accorge; riceve sempre una risposta.

PII-Vault (Anonimizzazione)

Prima dell'escalation il PII-Vault anonimizza automaticamente tutti i dati personali: nomi, numeri di telefono, indirizzi e-mail, nomi aziendali. Solo la domanda depurata lascia la rete. La risposta viene ri-personalizzata localmente. I Suoi dati restano sempre locali.