Technische Dokumentation

Technische Architektur

Vom SovereignNode bis zum LLM-Aufruf — so funktioniert AIMOS unter der Haube.

Stack-Diagramm

System-Übersicht

Der vollständige Datenfluss von der Benutzernachricht bis zur Antwort — alle Schichten im Überblick.

BENUTZER-KANÄLE Telegram E-Mail Sprache (STT/TTS) Dashboard Shared Listener PostgreSQL (Message Relay) Orchestrator (VRAM Guard, Process Manager) Agent-Prozess (Memory + Skills + Prompt-Builder) LLM (Lokale Inferenz) Antwort-Pfad Kernel Datenbank Orchestrierung Inferenz

Inferenz

Lokale KI-Inferenz

Lokale Inferenz via SGLang. Sequenzieller Betrieb. Intelligentes VRAM-Management.

Qwen 3.5:27B (Q4, ~17 GB VRAM)

27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.

SGLang Runtime

Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: Prefix-Cache wird zwischen Agenten geteilt — kein Neuladen bei Agent-Wechsel.

Sequenzieller Betrieb

Die VRAM Guard stellt sicher, dass nur ein Agent gleichzeitig auf die GPU zugreift. Anfragen werden in der Datenbank-Queue gehalten und sequenziell abgearbeitet — kein OOM, kein VRAM-Konflikt.

Keep-Alive / RadixAttention

Das Modell bleibt 30 Minuten im VRAM. Alle Agenten teilen sich dasselbe Modell — kein Entladen beim Agenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.

// Anatomie eines LLM-Requests
System Prompt + Memory Context Cognitive Balance Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking

Kontext-Management

Kontext-Architektur

14.336 Tokens Kontextfenster. Jeder Agent nutzt 17–22% für seinen Prompt — der Rest bleibt für Gedächtnis, Gespräche und Tool-Aufrufe.

// Kontext-Fenster Komposition (14.336 Tokens)
Core Prompt ~2.000 Agent ~400-700 Tools ~400-600 Memories ~500-1.500 Kalender ~200 Chats ~300-600 Gesprächsverlauf dynamisch Antwort ~2.000 reserv. Fix pro Agent (17-22%) Dynamisch (Gedächtnis + Konversation + Antwort) ! Context Budget Guard Automatisches Trimming: Wenn der Kontext das Budget überschreitet, wird der Gesprächsverlauf komprimiert, bevor der LLM-Call startet. zZ Dreaming-Trigger Überschreitet der Verlauf die Schwelle, konsolidiert der Agent Erkenntnisse ins Langzeitgedächtnis (Dreaming) und leert den Verlauf.

Context Budget Guard

Vor jedem LLM-Call wird die Token-Summe geprüft. Überschreitet sie das Budget, wird der Gesprächsverlauf automatisch gekürzt — älteste Nachrichten zuerst. Der Agent-Prompt und die Tool-Definitionen bleiben immer vollständig erhalten.

Dynamische Kompression

Das verfügbare Kontext-Budget wird dynamisch berechnet: kürzere Agenten-Prompts lassen mehr Platz für Gesprächsverlauf und Memories. Agenten mit umfangreichen Tool-Sets kompensieren durch kürzere System-Prompts.

Agent-Splitting

Statt einen Agenten mit riesigem Prompt zu überladen, verteilt AIMOS Arbeit auf Spezialisten mit kurzen, fokussierten Prompts. Jeder Agent beherrscht sein Fachgebiet — weniger Prompt, mehr Platz für Kontext.

Infrastruktur

SovereignNode

Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.

Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die Agenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).

Komponente Minimum Empfohlen
GPU NVIDIA RTX 3090 (24 GB VRAM) NVIDIA RTX 5090 (32 GB VRAM)
RAM 32 GB DDR4 64 GB DDR5
Speicher 256 GB SSD 1 TB NVMe
CPU 8 Kerne 16+ Kerne
OS Ubuntu 24.04 LTS Ubuntu 26.04 LTS
SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Agent A Agent B Agent C Shared Listener (Telegram, E-Mail, Voice)

Dual-DB

Dual-DB-Architektur

AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:

PostgreSQL (Relay-Datenbank)

Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und Agenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.

SQLite (Agent-Memory)

Jeder Agent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (je Agent) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orchestrator

Interoperabilität

Agent-Portabilität

AIMOS-Agenten sind portabel, kompatibel und interoperabel durch offene Standards.

OAP Export/Import

Das Open Agent Package Format ermöglicht den vollständigen Export eines Agenten inklusive Memory, Skills und Konfiguration als portables Archiv.

agent_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

MCP Bridge (39 Tools)

Das Model Context Protocol ermöglicht externen LLMs (Claude, GPT, etc.) den Zugriff auf AIMOS-Skills. 39 Tools stehen als MCP-Server bereit.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Jeder Agent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.

"name": "Konstruktions-Agent",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: agent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Agent aktiv

Technische Highlights

Was AIMOS auszeichnet

Native Tool-Calling

Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der Agent steuert Systeme direkt, statt Aktionen nur zu beschreiben.

Mehrsprachige Sprache

Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — Agenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.

Token-Tracking

Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro Agent, pro Gespräch, pro Monat.

Conversation Threading

Jeder Agent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.