Architettura — AIMOS

La sfida

32 GB VRAM — non serve di più

I LLM cloud lavorano con finestre di contesto enormi su cluster di server specializzati. AIMOS funziona su una singola scheda grafica nel Suo ufficio — e raggiunge con mezzi architetturali una prestazione che per le attività aziendali non solo è sufficiente, ma spesso ottiene risultati migliori rispetto ai modelli cloud sovradimensionati.

// Confronto delle finestre di contesto (Token)

// Perché la VRAM è il collo di bottiglia

Il modello giusto per il compito giusto

Modelli con 200 miliardi di parametri e 1 milione di token di contesto sono impressionanti — ma per attività aziendali strutturate spesso sovradimensionati. Al contrario, il contatto con clienti esterni richiede un modello più grande delle query interne. AIMOS si adatta all'attività.

14B — Starter

Casi semplici, categorizzazione documenti, e-mail di stato. Funziona su una RTX 4060 Ti (16 GB, da 400 €). Con Multi-Pass Self-Refinement ~80 % della qualità 27B.

27B — Business

Assistente IA completo, FuSa Safety Manager, analisi complesse. Chiamate strumenti precise (~86 % BFCL), 33K di contesto con TurboQuant KV compression. Su RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× più veloce).

Stesso software

Entrambe le dimensioni del modello funzionano sulla stessa piattaforma AIMOS. Un upgrade da 27B a 70B è possibile in qualsiasi momento — sostituendo l'hardware, senza riconfigurare gli agenti.

Sette principi architetturali anziché pura potenza di calcolo

AIMOS non compensa la finestra di contesto più piccola con hardware più potente — bensì attraverso un'architettura che fa sì che l'agente abbia esattamente nel contesto ciò di cui ha bisogno per l'attività corrente.

AIMOS compensa ciò con sette principi architetturali, che vengono spiegati in dettaglio in questa pagina:

1 Memoria a lungo termine 2 Dreaming 3 Agent-Splitting 4 Budget Guard 5 Iniezione del contesto 6 VRAM-Sharing 7 Escalazione

Principi architetturali

Sette principi per le prestazioni IA locali

Ogni principio affronta una limitazione concreta dell'esercizio locale — insieme consentono l'idoneità aziendale su una singola GPU.

Hybrid-Memoria a lungo termine

Fatti illimitati anziché token di contesto finiti

Ogni agente ha una propria memoria con due meccanismi di ricerca: FTS5 (ricerca full-text) e MiniLM-L6-v2 (embedding vettoriali a 384 dimensioni). I risultati vengono combinati tramite Reciprocal Rank Fusion — i ricordi rilevanti vengono trovati anche con termini di ricerca imprecisi.

Anziché memorizzare 200.000 token di cronologia, l'agente si ricorda i fatti rilevanti — e li ritrova immediatamente con la domanda giusta. Il numero di ricordi memorizzati è illimitato.

// Ricerca ibrida in azione

FTS5: "Fornitore profili acciaio" → 12 risultati

Vector: "Chi fornisce travi?" → 8 risultati

RRF: Fusione → Top 20, ordinati per rilevanza

Memorizzato in: SQLite (per agente)
Modello embedding: locale, nessuna chiamata cloud

Dreaming (Consolidamento della memoria)

Salvare la conoscenza prima che il contesto sia pieno

Attivazione

Non temporizzato, ma attivato dalla pressione del contesto: Se la cronologia della conversazione supera la soglia (12/18/25 messaggi, a seconda dell'agente), l'orchestratore avvia un ciclo Dreaming.

Procedura

Il LLM analizza la cronologia ed estrae fatti come MEM:-righe nella memoria a lungo termine. Contemporaneamente i file del workspace (note, liste attività) vengono aggiornati tramite FILE: aggiornati.

Risultato

Successivamente la cronologia viene cancellata — senza perdita di informazioni. I report settimanali (fase 5) riassumono inoltre lo stato ogni 7 giorni.

Agent-Splitting

Specialisti anziché tuttofare

Anziché sovraccaricare un agente con un enorme system prompt, AIMOS distribuisce le attività su più specialisti con prompt brevi e focalizzati. Ogni agente occupa solo il 17–22% della propria finestra di contesto per il system prompt — il resto rimane per memoria, conversazione e risposta.

99%

Un agente, prompt 11K

Timeout, nessuno spazio

17%

Specialista A, 1.5K Prompt

83% libero per il lavoro

19%

Specialista B, 2.8K Prompt

81% libero per il lavoro

Context Budget Guard

Gestione automatica dei token prima di ogni chiamata LLM

// Budget VRAM per livello hardware (in scala)

KV-Cache (Key-Value Cache) = la memoria di lavoro del modello linguistico durante una conversazione. Contiene il prompt di sistema, i ricordi, la cronologia della conversazione e i token riservati per la risposta. Più VRAM rimane per il KV-Cache, più lunghe e profonde sono le conversazioni possibili.

// Composizione della finestra di contesto (14.336 Token)

Il limite della cronologia si adatta dinamicamente: agenti con prompt breve (17%) mantengono fino a 35 messaggi, agenti con prompt lungo solo 15. Prima di ogni chiamata LLM viene verificato il totale dei token — se supera il budget, viene automaticamente abbreviata. Il prompt dell'agente e le definizioni degli strumenti vengono sempre conservati integralmente.

Iniezione strutturata del contesto

Massima informazione con token minimi

Anziché inserire calendario, progetti e contatti come testo libero nel contesto, AIMOS inietta come blocchi compatti e strutturati. Il LLM comprende questi formati con token minimi e può reagire immediatamente.

[OVERDUE] 2026-03-20 Offerta

[TODAY] 15:00 Riunione

</calendar>

[OVERDUE] Statica → Müller

[BLOCKED] Disegno mancante

</projects>

Azienda usa DATEV (imp=9)

Il capo si chiama Müller (imp=8)

</memories>

Funzionamento VRAM sequenziale

Tutti gli agenti condividono una GPU, un modello

Qwen 3.5:27B (Q4, ~17 GB VRAM)

modello da 32 miliardi di parametri con tool-calling nativo. Modelli più piccoli (<20B) falliscono nel controllo affidabile degli strumenti — un risultato critico per la produzione della nostra valutazione.

Orchestrator & VRAM Guard

L'orchestratore rileva nuovi messaggi nella coda DB, avvia l'agente competente e garantisce che solo un agente alla volta occupi la GPU. Il monitoraggio heartbeat rileva processi bloccati (>60s) e libera la VRAM bloccata.

SGLang & RadixAttention

Runtime LLM ad alte prestazioni con endpoint API compatibile OpenAI. RadixAttention: la cache dei prefissi viene condivisa tra agenti — cambio agente in millisecondi anziché secondi.

Keep-Alive

Il modello resta 30 minuti nella VRAM. Tutti gli agenti condividono lo stesso modello — nessuno scaricamento al cambio agente. Solo dopo 30 minuti di inattività la VRAM viene liberata.

// Anatomia di una richiesta LLM

Escalazione e PII-Vault

Fallback automatico per attività complesse

Escalazione

Se un'attività supera le capacità del modello locale 27B — o si verifica un timeout — l'agente escala automaticamente a un LLM cloud più potente (ad es. Claude Sonnet). L'utente non se ne accorge; riceve sempre una risposta.

PII-Vault (Anonimizzazione)

Prima dell'escalation il PII-Vault anonimizza automaticamente tutti i dati personali: nomi, numeri di telefono, indirizzi e-mail, nomi aziendali. Solo la domanda depurata lascia la rete. La risposta viene ri-personalizzata localmente. I Suoi dati restano sempre locali.

Architettura tecnica