Documentazione tecnica
Dalla sfida alla chiamata LLM — i principi architetturali di AIMOS.
La sfida
I LLM cloud lavorano con finestre di contesto enormi su cluster di server specializzati. AIMOS funziona su una singola scheda grafica nel Suo ufficio — e raggiunge con mezzi architetturali una prestazione che per le attività aziendali non solo è sufficiente, ma spesso ottiene risultati migliori rispetto ai modelli cloud sovradimensionati.
Modelli con 200 miliardi di parametri e 1 milione di token di contesto sono impressionanti — ma per attività aziendali strutturate spesso sovradimensionati. Al contrario, il contatto con clienti esterni richiede un modello più grande delle query interne. AIMOS si adatta all'attività.
Casi semplici, categorizzazione documenti, e-mail di stato. Funziona su una RTX 4060 Ti (16 GB, da 400 €). Con Multi-Pass Self-Refinement ~80 % della qualità 27B.
Assistente IA completo, FuSa Safety Manager, analisi complesse. Chiamate strumenti precise (~86 % BFCL), 33K di contesto con TurboQuant KV compression. Su RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× più veloce).
Entrambe le dimensioni del modello funzionano sulla stessa piattaforma AIMOS. Un upgrade da 27B a 70B è possibile in qualsiasi momento — sostituendo l'hardware, senza riconfigurare gli agenti.
AIMOS non compensa la finestra di contesto più piccola con hardware più potente — bensì attraverso un'architettura che fa sì che l'agente abbia esattamente nel contesto ciò di cui ha bisogno per l'attività corrente.
AIMOS compensa ciò con sette principi architetturali, che vengono spiegati in dettaglio in questa pagina:
Flusso dei dati
I messaggi arrivano attraverso diversi canali, vengono distribuiti centralmente ed elaborati dall'agente appropriato — su una GPU condivisa.
Principi architetturali
Ogni principio affronta una limitazione concreta dell'esercizio locale — insieme consentono l'idoneità aziendale su una singola GPU.
Fatti illimitati anziché token di contesto finiti
Ogni agente ha una propria memoria con due meccanismi di ricerca: FTS5 (ricerca full-text) e MiniLM-L6-v2 (embedding vettoriali a 384 dimensioni). I risultati vengono combinati tramite Reciprocal Rank Fusion — i ricordi rilevanti vengono trovati anche con termini di ricerca imprecisi.
Anziché memorizzare 200.000 token di cronologia, l'agente si ricorda i fatti rilevanti — e li ritrova immediatamente con la domanda giusta. Il numero di ricordi memorizzati è illimitato.
Salvare la conoscenza prima che il contesto sia pieno
Non temporizzato, ma attivato dalla pressione del contesto: Se la cronologia della conversazione supera la soglia (12/18/25 messaggi, a seconda dell'agente), l'orchestratore avvia un ciclo Dreaming.
Il LLM analizza la cronologia ed estrae fatti come MEM:-righe nella memoria a lungo termine. Contemporaneamente i file del workspace (note, liste attività) vengono aggiornati tramite FILE: aggiornati.
Successivamente la cronologia viene cancellata — senza perdita di informazioni. I report settimanali (fase 5) riassumono inoltre lo stato ogni 7 giorni.
Specialisti anziché tuttofare
Anziché sovraccaricare un agente con un enorme system prompt, AIMOS distribuisce le attività su più specialisti con prompt brevi e focalizzati. Ogni agente occupa solo il 17–22% della propria finestra di contesto per il system prompt — il resto rimane per memoria, conversazione e risposta.
Gestione automatica dei token prima di ogni chiamata LLM
KV-Cache (Key-Value Cache) = la memoria di lavoro del modello linguistico durante una conversazione. Contiene il prompt di sistema, i ricordi, la cronologia della conversazione e i token riservati per la risposta. Più VRAM rimane per il KV-Cache, più lunghe e profonde sono le conversazioni possibili.
Il limite della cronologia si adatta dinamicamente: agenti con prompt breve (17%) mantengono fino a 35 messaggi, agenti con prompt lungo solo 15. Prima di ogni chiamata LLM viene verificato il totale dei token — se supera il budget, viene automaticamente abbreviata. Il prompt dell'agente e le definizioni degli strumenti vengono sempre conservati integralmente.
Massima informazione con token minimi
Anziché inserire calendario, progetti e contatti come testo libero nel contesto, AIMOS inietta come blocchi compatti e strutturati. Il LLM comprende questi formati con token minimi e può reagire immediatamente.
Tutti gli agenti condividono una GPU, un modello
modello da 32 miliardi di parametri con tool-calling nativo. Modelli più piccoli (<20B) falliscono nel controllo affidabile degli strumenti — un risultato critico per la produzione della nostra valutazione.
L'orchestratore rileva nuovi messaggi nella coda DB, avvia l'agente competente e garantisce che solo un agente alla volta occupi la GPU. Il monitoraggio heartbeat rileva processi bloccati (>60s) e libera la VRAM bloccata.
Runtime LLM ad alte prestazioni con endpoint API compatibile OpenAI. RadixAttention: la cache dei prefissi viene condivisa tra agenti — cambio agente in millisecondi anziché secondi.
Il modello resta 30 minuti nella VRAM. Tutti gli agenti condividono lo stesso modello — nessuno scaricamento al cambio agente. Solo dopo 30 minuti di inattività la VRAM viene liberata.
Fallback automatico per attività complesse
Se un'attività supera le capacità del modello locale 27B — o si verifica un timeout — l'agente escala automaticamente a un LLM cloud più potente (ad es. Claude Sonnet). L'utente non se ne accorge; riceve sempre una risposta.
Prima dell'escalation il PII-Vault anonimizza automaticamente tutti i dati personali: nomi, numeri di telefono, indirizzi e-mail, nomi aziendali. Solo la domanda depurata lascia la rete. La risposta viene ri-personalizzata localmente. I Suoi dati restano sempre locali.