Infrastruktur

System & Infrastruktur

Hardware, bases de datos, portabilidad — la base física y lógica de su SovereignNode.

Infraestructura

SovereignNode

Un único servidor. GPU local. Sin dependencia de la nube. El SovereignNode es el corazón de cada instalación AIMOS — un servidor físico o virtual que aloja todos los componentes.

Todo funciona on-premise: inferencia LLM, bases de datos, procesos de agentes y canales de comunicación. Ningún byte abandona su red — a menos que lo configure explícitamente (p. ej. mensajes de Telegram).

Starter Business Professional Enterprise
Hardware
GPU RTX 4060 Ti
16 GB
RTX 3090 / 5090
24–32 GB
2× RTX 3090 NVLink
48 GB
A100 / H100
80+ GB
Modelo IA 14B (Q4) 27B (Q4) 70B (Q4) 70B (Q4) + 9B Draft
Speculative Decoding Opcional
en 5090: +4B Draft
+4B Draft
~17K Context
+9B Draft
~75K Context
Velocidad ~30 Tok/s ~35 Tok/s
5090+Spec : ~90 Tok/s
~20 Tok/s
+Spec : ~50 Tok/s
~40 Tok/s
+Spec : ~100 Tok/s
Agentes IA 2–4 5–10
5090+Spec : 10–20
5–10 15–30
Tecnología TurboQuant TurboQuant
+ SGLang
TurboQuant
+ NVLink + Spec.
TurboQuant + SGLang
+ Spec. Decoding
Hardware aprox. desde 1.200 EUR
GPU ~400 EUR
desde 2.000 EUR
3090 : ~700 | 5090 : ~3 500
desde 2.500 EUR
2× 3090 + NVLink
bajo consulta
A100 : A100: desde ~3.500 usado
Adecuación a tareas
Consultas ERP
Extracción de datos
Gestión de citas
Soporte interno
Búsqueda documentos
Contacto con clientes
Asesoría técnica
Multilingüe
Compliance
Excellent Bon Posible, con limitaciones No recomendado

Basé sur IFEval, MT-Bench, BFCL et Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ núcleos CPU recomendados.

Vista general de la arquitectura

SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Agent A Agent B Agent C Shared Listener (Telegram, E-Mail, Voz)

Dual-DB

Dual-DB-Architektur

AIMOS utiliza dos sistemas de bases de datos con responsabilidades claramente separadas:

PostgreSQL (Relay-Datenbank)

Enrutamiento central de mensajes entre Shared Listener, orquestador y agentes. Almacena mensajes entrantes, registros de auditoría, mapeos PII-Vault y datos de sesión. Compatible con múltiples procesos mediante Connection Pooling.

SQLite (Agent-Memory)

Cada agente tiene su propia base de datos SQLite con memoria semántica, episódica y memoria procedimental. Búsqueda híbrida mediante FTS5 + embeddings vectoriales. Portable mediante simple copia del archivo.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (je Agent) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orquestador

Interoperabilidad

Portabilidad de agentes

Los agentes AIMOS son portables, compatibles e interoperables mediante estándares abiertos.

OAP Export/Import

El formato Open Agent Package permite la exportación completa de un agente incluyendo memoria, Skills y configuración como archivo portable.

agent_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

Compatibilidad MCP

El Model Context Protocol permite a LLMs externos (Claude, GPT, etc.) acceder a los Skills de AIMOS. 39 herramientas están disponibles como servidor MCP.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Cada agente publica una Agent Card (JSON-LD) según la especificación Google A2A. Los sistemas externos pueden consultar capacidades, formatos de entrada y nivel de confianza.

"name": "Konstruktions-Agent",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: agent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Agent aktiv

Technische Highlights

Lo que distingue a AIMOS

Native Tool-Calling

Sin hacks de texto ni análisis Regex — AIMOS utiliza la API nativa de Tool-Calling del LLM. El agente controla sistemas directamente, en lugar de solo describir acciones.

Mehrsprachige Sprache

Reconocimiento de voz (Whisper STT) y síntesis de voz (Piper TTS) en allen Sprachen — Los agentes comprenden mensajes de voz y responden en el idioma nativo del usuario.

Token-Tracking

Cada llamada LLM se registra: tokens de entrada/salida, latencia, utilización del contexto. Transparencia total de costes pro Agent, por conversación, por mes.

Conversation Threading

Cada agente sabe con quién habla y en qué canal. Telegram, correo electrónico y mensajes internos se separan correctamente — sin confusión entre interlocutores.