Arquitectura — AIMOS

El desafío

32 GB VRAM — no se necesita más

Los LLM en la nube trabajan con enormes ventanas de contexto en clústeres de servidores especializados. AIMOS funciona en una sola tarjeta gráfica en su oficina — y alcanza mediante medios arquitectónicos un rendimiento que no solo es suficiente para tareas empresariales, sino que a menudo ofrece mejores resultados que los modelos en la nube sobredimensionados.

// Comparación de ventanas de contexto (Tokens)

// Por qué la VRAM es el cuello de botella

El modelo adecuado para la tarea adecuada

Los modelos con 200 mil millones de parámetros y 1 millón de tokens de contexto son impresionantes — pero para tareas empresariales estructuradas, a menudo sobredimensionados. Por el contrario, el contacto con clientes externos requiere un modelo más grande que las consultas de datos internas. AIMOS se adapta a la tarea.

14B — Starter

Casos simples, categorización de documentos, correos de estado. Funciona en una RTX 4060 Ti (16 GB, desde 400 €). Con Multi-Pass Self-Refinement ~80 % de la calidad 27B.

27B — Business

Asistente IA completo, FuSa Safety Manager, análisis complejos. Llamadas a herramientas precisas (~86 % BFCL), 33K de contexto con TurboQuant KV compression. En RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× más rápido).

Mismo software

Ambos tamaños de modelo funcionan en la misma plataforma AIMOS. Una actualización de 27B a 70B es posible en cualquier momento — cambiando el hardware, sin reconfigurar los agentes.

Siete principios arquitectónicos en lugar de potencia de cálculo bruta

AIMOS no compensa la ventana de contexto más pequeña con hardware más grande — sino mediante arquitectura que garantiza que el agente tenga exactamente en el contexto lo que necesita para la tarea actual.

AIMOS compensa esto con siete principios arquitectónicos, que se explican en detalle en esta página:

1 Memoria a largo plazo 2 Dreaming 3 Agent-Splitting 4 Budget Guard 5 Inyección de contexto 6 VRAM-Sharing 7 Escalación

Principios arquitectónicos

Siete principios para el rendimiento de IA local

Cada principio aborda una limitación concreta de la operación local — juntos permiten la aptitud empresarial en una sola GPU.

Hybrid-Memoria a largo plazo

Hechos ilimitados en lugar de tokens de contexto finitos

Cada agente tiene su propia memoria con dos mecanismos de búsqueda: FTS5 (búsqueda de texto completo) y MiniLM-L6-v2 (embeddings vectoriales de 384 dimensiones). Los resultados se combinan mediante Reciprocal Rank Fusion — los recuerdos relevantes se encuentran incluso con términos de búsqueda imprecisos.

En lugar de almacenar 200.000 tokens de historial, el agente memoriza los hechos relevantes — y los encuentra de inmediato con la pregunta correcta. El número de recuerdos almacenados es ilimitado.

// Búsqueda híbrida en acción

FTS5: "Proveedor perfiles de acero" → 12 resultados

Vector: "¿Quién suministra soportes?" → 8 resultados

RRF: Fusión → Top 20, ordenados por relevancia

Almacenado en: SQLite (por agente)
Modelo de embedding: local, sin llamada a la nube

Dreaming (consolidación de memoria)

Asegurar el conocimiento antes de que el contexto se llene

Activador

No controlado por tiempo, sino por presión de contexto: Si el historial de conversación supera el umbral (12/18/25 mensajes, según el agente), el orquestador inicia un ciclo de Dreaming.

Proceso

El LLM analiza el historial y extrae hechos como líneas MEM: en la memoria a largo plazo. Simultáneamente, los archivos del espacio de trabajo (notas, listas de tareas) se actualizan mediante FILE: se actualizan.

Resultado

A continuación, el historial se elimina — sin pérdida de información. Los informes semanales (Fase 5) además resumen el estado cada 7 días.

Agent-Splitting

Especialistas en lugar de generalistas

En lugar de sobrecargar un agente con un prompt de sistema enorme, AIMOS distribuye tareas entre varios especialistas con prompts cortos y enfocados. Cada agente ocupa solo el 17–22% de su ventana de contexto para el prompt de sistema — el resto queda disponible para memoria, conversación y respuesta.

99%

Un agente, 11K de prompt

Timeout, sin espacio

17%

Especialista A, 1.5K Prompt

83% libre para trabajo

19%

Especialista B, 2.8K Prompt

81% libre para trabajo

Context Budget Guard

Gestión automática de tokens antes de cada llamada LLM

// Presupuesto VRAM por nivel de hardware (a escala)

KV-Cache (Key-Value Cache) = la memoria de trabajo del modelo de lenguaje durante una conversación. Aquí se almacenan el prompt del sistema, los recuerdos, el historial de conversación y los tokens reservados para la respuesta. Cuanta más VRAM quede para el KV-Cache, más largas y profundas serán las conversaciones posibles.

// Composición de la ventana de contexto (14.336 Tokens)

El límite de historial se adapta dinámicamente: agentes con prompt corto (17%) mantienen hasta 35 mensajes, agentes con prompt largo solo 15. Antes de cada llamada LLM se verifica la suma de tokens — si supera el presupuesto, se acorta automáticamente. El prompt del agente y las definiciones de herramientas se conservan siempre completos.

Inyección de contexto estructurada

Máxima información con mínimos tokens

En lugar de incluir calendarios, proyectos y contactos como texto libre en el contexto, AIMOS inyecta los mismos como bloques compactos y estructurados. El LLM comprende estos formatos con mínimos tokens y puede reaccionar de inmediato.

[OVERDUE] 2026-03-20 Oferta

[TODAY] 15:00 Reunión

</calendar>

[OVERDUE] Estática → Müller

[BLOCKED] Falta el plano

</projects>

Empresa usa DATEV (imp=9)

Jefe se llama Müller (imp=8)

</memories>

Operación secuencial de VRAM

Todos los agentes comparten una GPU, un modelo

Qwen 3.5:27B (Q4, ~17 GB VRAM)

modelo de 32 mil millones de parámetros con Tool-Calling nativo. Los modelos más pequeños (<20B) fallan en el control fiable de herramientas — un resultado crítico para producción de nuestra evaluación.

Orchestrator & VRAM Guard

El orquestador detecta nuevos mensajes en la cola de BD, ejecuta el agente correspondiente y garantiza que solo un agente ocupe la GPU simultáneamente. La supervisión de heartbeat detecta procesos bloqueados (>60s) y libera la VRAM ocupada.

SGLang & RadixAttention

Runtime LLM de alto rendimiento con endpoint API compatible con OpenAI. RadixAttention: la caché de prefijo se comparte entre agentes — cambio de agente en milisegundos en lugar de segundos.

Keep-Alive

El modelo permanece 30 minutos en la VRAM. Todos los agentes comparten el mismo modelo — sin descarga al cambiar de agente. Solo después de 30 minutos de inactividad se libera la VRAM.

// Anatomía de una solicitud LLM

Escalación y PII-Vault

Fallback automático en tareas complejas

Escalación

Si una tarea supera las capacidades del modelo local de 27B — o se produce un timeout — el agente escala automáticamente a un LLM en la nube más potente (p.ej. Claude Sonnet). El usuario no lo nota; siempre recibe una respuesta.

PII-Vault (Anonimización)

Antes de la escalación, el PII-Vault anonimiza automáticamente todos los datos personales: nombres, números de teléfono, direcciones de correo electrónico, nombres de empresas. Solo la pregunta depurada abandona la red. La respuesta se re-personaliza localmente. Sus datos permanecen siempre en local.

Arquitectura técnica