Documentación técnica
Del desafío a la llamada LLM — los principios arquitectónicos de AIMOS.
El desafío
Los LLM en la nube trabajan con enormes ventanas de contexto en clústeres de servidores especializados. AIMOS funciona en una sola tarjeta gráfica en su oficina — y alcanza mediante medios arquitectónicos un rendimiento que no solo es suficiente para tareas empresariales, sino que a menudo ofrece mejores resultados que los modelos en la nube sobredimensionados.
Los modelos con 200 mil millones de parámetros y 1 millón de tokens de contexto son impresionantes — pero para tareas empresariales estructuradas, a menudo sobredimensionados. Por el contrario, el contacto con clientes externos requiere un modelo más grande que las consultas de datos internas. AIMOS se adapta a la tarea.
Casos simples, categorización de documentos, correos de estado. Funciona en una RTX 4060 Ti (16 GB, desde 400 €). Con Multi-Pass Self-Refinement ~80 % de la calidad 27B.
Asistente IA completo, FuSa Safety Manager, análisis complejos. Llamadas a herramientas precisas (~86 % BFCL), 33K de contexto con TurboQuant KV compression. En RTX 3090 (24 GB) o RTX 5090 con Speculative Decoding (~7× más rápido).
Ambos tamaños de modelo funcionan en la misma plataforma AIMOS. Una actualización de 27B a 70B es posible en cualquier momento — cambiando el hardware, sin reconfigurar los agentes.
AIMOS no compensa la ventana de contexto más pequeña con hardware más grande — sino mediante arquitectura que garantiza que el agente tenga exactamente en el contexto lo que necesita para la tarea actual.
AIMOS compensa esto con siete principios arquitectónicos, que se explican en detalle en esta página:
Flujo de datos
Los mensajes llegan por diferentes canales, se distribuyen centralmente y son procesados por el agente adecuado — en una GPU compartida.
Principios arquitectónicos
Cada principio aborda una limitación concreta de la operación local — juntos permiten la aptitud empresarial en una sola GPU.
Hechos ilimitados en lugar de tokens de contexto finitos
Cada agente tiene su propia memoria con dos mecanismos de búsqueda: FTS5 (búsqueda de texto completo) y MiniLM-L6-v2 (embeddings vectoriales de 384 dimensiones). Los resultados se combinan mediante Reciprocal Rank Fusion — los recuerdos relevantes se encuentran incluso con términos de búsqueda imprecisos.
En lugar de almacenar 200.000 tokens de historial, el agente memoriza los hechos relevantes — y los encuentra de inmediato con la pregunta correcta. El número de recuerdos almacenados es ilimitado.
Asegurar el conocimiento antes de que el contexto se llene
No controlado por tiempo, sino por presión de contexto: Si el historial de conversación supera el umbral (12/18/25 mensajes, según el agente), el orquestador inicia un ciclo de Dreaming.
El LLM analiza el historial y extrae hechos como líneas MEM: en la memoria a largo plazo. Simultáneamente, los archivos del espacio de trabajo (notas, listas de tareas) se actualizan mediante FILE: se actualizan.
A continuación, el historial se elimina — sin pérdida de información. Los informes semanales (Fase 5) además resumen el estado cada 7 días.
Especialistas en lugar de generalistas
En lugar de sobrecargar un agente con un prompt de sistema enorme, AIMOS distribuye tareas entre varios especialistas con prompts cortos y enfocados. Cada agente ocupa solo el 17–22% de su ventana de contexto para el prompt de sistema — el resto queda disponible para memoria, conversación y respuesta.
Gestión automática de tokens antes de cada llamada LLM
KV-Cache (Key-Value Cache) = la memoria de trabajo del modelo de lenguaje durante una conversación. Aquí se almacenan el prompt del sistema, los recuerdos, el historial de conversación y los tokens reservados para la respuesta. Cuanta más VRAM quede para el KV-Cache, más largas y profundas serán las conversaciones posibles.
El límite de historial se adapta dinámicamente: agentes con prompt corto (17%) mantienen hasta 35 mensajes, agentes con prompt largo solo 15. Antes de cada llamada LLM se verifica la suma de tokens — si supera el presupuesto, se acorta automáticamente. El prompt del agente y las definiciones de herramientas se conservan siempre completos.
Máxima información con mínimos tokens
En lugar de incluir calendarios, proyectos y contactos como texto libre en el contexto, AIMOS inyecta los mismos como bloques compactos y estructurados. El LLM comprende estos formatos con mínimos tokens y puede reaccionar de inmediato.
Todos los agentes comparten una GPU, un modelo
modelo de 32 mil millones de parámetros con Tool-Calling nativo. Los modelos más pequeños (<20B) fallan en el control fiable de herramientas — un resultado crítico para producción de nuestra evaluación.
El orquestador detecta nuevos mensajes en la cola de BD, ejecuta el agente correspondiente y garantiza que solo un agente ocupe la GPU simultáneamente. La supervisión de heartbeat detecta procesos bloqueados (>60s) y libera la VRAM ocupada.
Runtime LLM de alto rendimiento con endpoint API compatible con OpenAI. RadixAttention: la caché de prefijo se comparte entre agentes — cambio de agente en milisegundos en lugar de segundos.
El modelo permanece 30 minutos en la VRAM. Todos los agentes comparten el mismo modelo — sin descarga al cambiar de agente. Solo después de 30 minutos de inactividad se libera la VRAM.
Fallback automático en tareas complejas
Si una tarea supera las capacidades del modelo local de 27B — o se produce un timeout — el agente escala automáticamente a un LLM en la nube más potente (p.ej. Claude Sonnet). El usuario no lo nota; siempre recibe una respuesta.
Antes de la escalación, el PII-Vault anonimiza automáticamente todos los datos personales: nombres, números de teléfono, direcciones de correo electrónico, nombres de empresas. Solo la pregunta depurada abandona la red. La respuesta se re-personaliza localmente. Sus datos permanecen siempre en local.