Documentación técnica

Arquitectura técnica

Del desafío a la llamada LLM — los principios arquitectónicos de AIMOS.

El desafío

32 GB VRAM — no se necesita más

Los LLM en la nube trabajan con enormes ventanas de contexto en clústeres de servidores especializados. AIMOS funciona en una sola tarjeta gráfica en su oficina — y alcanza mediante medios arquitectónicos un rendimiento que no solo es suficiente para tareas empresariales, sino que a menudo ofrece mejores resultados que los modelos en la nube sobredimensionados.

// Comparación de ventanas de contexto (Tokens)
250K 500K 750K 1.000K Gemini 2.5 1.000.000 Cloud • $$$ Claude 4 200.000 Cloud • $$ GPT-4o 128.000 Cloud • $$ AIMOS — Local, Your GPU, Your Data — TurboQuant KV Compression (ICLR 2026) Starter 20K — RTX 4060 Ti 16 GB, Qwen 14B Business 33K — RTX 3090 24 GB, Qwen 27B Business+ 52K — RTX 5090 32 GB + Speculative Decoding + SGLang Professional 100K+ — 2× RTX 3090 NVLink 48 GB / A100 80 GB TurboQuant: 3-Bit KV → 6× more context Smaller context window than cloud — but: TurboQuant + Architecture compensate for this. And: your data stays with you.
// Por qué la VRAM es el cuello de botella
NVIDIA RTX 3090 — 24 GB VRAM + TurboQuant Pesos del modelo Qwen 3.5:27B (Q4) — ~17 GB asignado fijo KV-Cache ~10 GB para el contexto Reserva ~2 GB 53% Modelo 41% Contexto 7% Reserva Ventaja TurboQuant: 8 GB más de VRAM = casi tres veces más espacio para el contexto que con la RTX 4090. AIMOS aprovecha este margen para más memoria, conversaciones más largas y ventanas de contexto más grandes — al mismo coste.

El modelo adecuado para la tarea adecuada

Los modelos con 200 mil millones de parámetros y 1 millón de tokens de contexto son impresionantes — pero para tareas empresariales estructuradas, a menudo sobredimensionados. Por el contrario, el contacto con clientes externos requiere un modelo más grande que las consultas de datos internas. AIMOS se adapta a la tarea.

14B — Starter

Casos simples, categorización de documentos, correos de estado. Funciona en una RTX 4060 Ti (16 GB, desde 400 €). Con Multi-Pass Self-Refinement ~80 % de la calidad 27B.

27B — Business

Asistente IA completo, FuSa Safety Manager, análisis complejos. Llamadas a herramientas precisas (~86 % BFCL), 33K de contexto con TurboQuant KV compression. En RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× más rápido).

Mismo software

Ambos tamaños de modelo funcionan en la misma plataforma AIMOS. Una actualización de 27B a 70B es posible en cualquier momento — cambiando el hardware, sin reconfigurar los agentes.

Siete principios arquitectónicos en lugar de potencia de cálculo bruta

AIMOS no compensa la ventana de contexto más pequeña con hardware más grande — sino mediante arquitectura que garantiza que el agente tenga exactamente en el contexto lo que necesita para la tarea actual.

AIMOS compensa esto con siete principios arquitectónicos, que se explican en detalle en esta página:

Flujo de datos

Vista general del sistema

Los mensajes llegan por diferentes canales, se distribuyen centralmente y son procesados por el agente adecuado — en una GPU compartida.

ENTRADAS Telegram E-Mail Voz Dashboard Shared Listener recibe todos los canales PostgreSQL Message Queue Orchestrator VRAM Guard • Gestor de procesos Agente financiero Memory • DATEV • ETA Agente de construcción Memory • FEM • DXF Agente de logística Memory • SAP • REST Su agente Memory • Sus Skills GPU — Inferencia LLM local Qwen 3.5:27B • RTX 3090 • 24 GB + TurboQuant secuencial Mensajes recopilar almacenar temporalmente distribuir Agenten Base de datos Orchestrator GPU / LLM

Principios arquitectónicos

Siete principios para el rendimiento de IA local

Cada principio aborda una limitación concreta de la operación local — juntos permiten la aptitud empresarial en una sola GPU.

1

Hybrid-Memoria a largo plazo

Hechos ilimitados en lugar de tokens de contexto finitos

Cada agente tiene su propia memoria con dos mecanismos de búsqueda: FTS5 (búsqueda de texto completo) y MiniLM-L6-v2 (embeddings vectoriales de 384 dimensiones). Los resultados se combinan mediante Reciprocal Rank Fusion — los recuerdos relevantes se encuentran incluso con términos de búsqueda imprecisos.

En lugar de almacenar 200.000 tokens de historial, el agente memoriza los hechos relevantes — y los encuentra de inmediato con la pregunta correcta. El número de recuerdos almacenados es ilimitado.

// Búsqueda híbrida en acción
FTS5:  "Proveedor perfiles de acero" → 12 resultados
Vector: "¿Quién suministra soportes?" → 8 resultados
RRF:   Fusión → Top 20, ordenados por relevancia
Almacenado en: SQLite (por agente)
Modelo de embedding: local, sin llamada a la nube
2

Dreaming (consolidación de memoria)

Asegurar el conocimiento antes de que el contexto se llene

Activador

No controlado por tiempo, sino por presión de contexto: Si el historial de conversación supera el umbral (12/18/25 mensajes, según el agente), el orquestador inicia un ciclo de Dreaming.

Proceso

El LLM analiza el historial y extrae hechos como líneas MEM: en la memoria a largo plazo. Simultáneamente, los archivos del espacio de trabajo (notas, listas de tareas) se actualizan mediante FILE: se actualizan.

Resultado

A continuación, el historial se elimina — sin pérdida de información. Los informes semanales (Fase 5) además resumen el estado cada 7 días.

3

Agent-Splitting

Especialistas en lugar de generalistas

En lugar de sobrecargar un agente con un prompt de sistema enorme, AIMOS distribuye tareas entre varios especialistas con prompts cortos y enfocados. Cada agente ocupa solo el 17–22% de su ventana de contexto para el prompt de sistema — el resto queda disponible para memoria, conversación y respuesta.

99%
Un agente, 11K de prompt
Timeout, sin espacio
17%
Especialista A, 1.5K Prompt
83% libre para trabajo
19%
Especialista B, 2.8K Prompt
81% libre para trabajo
4

Context Budget Guard

Gestión automática de tokens antes de cada llamada LLM

// Presupuesto VRAM por nivel de hardware (a escala)
Starter RTX 4090 14B — 9 GB 13 GB ~26K Tok Business RTX 3090 32B — 19 GB 11 GB ~22K Tok Professional 2× 3090 NVLink 70B — 40 GB 22 GB ~24K Tok Pesos del modelo (fijo) KV-Cache (contexto) Reserva Mismo software, diferente capacidad. Starter: rápido & eficiente. Business: más preciso. Professional: calidad máxima.

KV-Cache (Key-Value Cache) = la memoria de trabajo del modelo de lenguaje durante una conversación. Aquí se almacenan el prompt del sistema, los recuerdos, el historial de conversación y los tokens reservados para la respuesta. Cuanta más VRAM quede para el KV-Cache, más largas y profundas serán las conversaciones posibles.

// Composición de la ventana de contexto (14.336 Tokens)
Core Prompt ~2.000 Agent ~400-700 Tools ~400-600 Memories ~500-1.500 Calendario Proyectos Historial de conversación dinámico (15-35 mensajes) Respuesta ~2.000 reserv. Fijo por agente (17-22%) Dinámico (memoria + conversación + respuesta) ! ¿Presupuesto excedido? Eliminar mensajes más antiguos • Acortar resultados de herramientas a 200 caracteres • Prompt + herramientas se conservan completos

El límite de historial se adapta dinámicamente: agentes con prompt corto (17%) mantienen hasta 35 mensajes, agentes con prompt largo solo 15. Antes de cada llamada LLM se verifica la suma de tokens — si supera el presupuesto, se acorta automáticamente. El prompt del agente y las definiciones de herramientas se conservan siempre completos.

5

Inyección de contexto estructurada

Máxima información con mínimos tokens

En lugar de incluir calendarios, proyectos y contactos como texto libre en el contexto, AIMOS inyecta los mismos como bloques compactos y estructurados. El LLM comprende estos formatos con mínimos tokens y puede reaccionar de inmediato.

<calendar>
[OVERDUE] 2026-03-20 Oferta
[TODAY] 15:00 Reunión
</calendar>
<projects>
[OVERDUE] Estática → Müller
[BLOCKED] Falta el plano
</projects>
<memories>
Empresa usa DATEV (imp=9)
Jefe se llama Müller (imp=8)
</memories>
6

Operación secuencial de VRAM

Todos los agentes comparten una GPU, un modelo

Qwen 3.5:27B (Q4, ~17 GB VRAM)

modelo de 32 mil millones de parámetros con Tool-Calling nativo. Los modelos más pequeños (<20B) fallan en el control fiable de herramientas — un resultado crítico para producción de nuestra evaluación.

Orchestrator & VRAM Guard

El orquestador detecta nuevos mensajes en la cola de BD, ejecuta el agente correspondiente y garantiza que solo un agente ocupe la GPU simultáneamente. La supervisión de heartbeat detecta procesos bloqueados (>60s) y libera la VRAM ocupada.

SGLang & RadixAttention

Runtime LLM de alto rendimiento con endpoint API compatible con OpenAI. RadixAttention: la caché de prefijo se comparte entre agentes — cambio de agente en milisegundos en lugar de segundos.

Keep-Alive

El modelo permanece 30 minutos en la VRAM. Todos los agentes comparten el mismo modelo — sin descarga al cambiar de agente. Solo después de 30 minutos de inactividad se libera la VRAM.

// Anatomía de una solicitud LLM
System Prompt + Memory Context Budget Guard Token-Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking
7

Escalación y PII-Vault

Fallback automático en tareas complejas

Escalación

Si una tarea supera las capacidades del modelo local de 27B — o se produce un timeout — el agente escala automáticamente a un LLM en la nube más potente (p.ej. Claude Sonnet). El usuario no lo nota; siempre recibe una respuesta.

PII-Vault (Anonimización)

Antes de la escalación, el PII-Vault anonimiza automáticamente todos los datos personales: nombres, números de teléfono, direcciones de correo electrónico, nombres de empresas. Solo la pregunta depurada abandona la red. La respuesta se re-personaliza localmente. Sus datos permanecen siempre en local.