Technische Dokumentation

Technische Architektur

Vom SovereignNode bis zum LLM-Aufruf — so funktioniert AIMOS unter der Haube.

Stack-Diagramm

System-Übersicht

Der vollständige Datenfluss von der Benutzernachricht bis zur Antwort — alle Schichten im Überblick.

Inferenz

Lokale KI-Inferenz

Lokale Inferenz via SGLang. Sequenzieller Betrieb. Intelligentes VRAM-Management.

Qwen 3.5:27B (Q4, ~17 GB VRAM)

27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.

SGLang Runtime

Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: Prefix-Cache wird zwischen Agenten geteilt — kein Neuladen bei Agent-Wechsel.

Sequenzieller Betrieb

Die VRAM Guard stellt sicher, dass nur ein Agent gleichzeitig auf die GPU zugreift. Anfragen werden in der Datenbank-Queue gehalten und sequenziell abgearbeitet — kein OOM, kein VRAM-Konflikt.

Keep-Alive / RadixAttention

Das Modell bleibt 30 Minuten im VRAM. Alle Agenten teilen sich dasselbe Modell — kein Entladen beim Agenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.

// Anatomie eines LLM-Requests

Kontext-Management

Kontext-Architektur

14.336 Tokens Kontextfenster. Jeder Agent nutzt 17–22% für seinen Prompt — der Rest bleibt für Gedächtnis, Gespräche und Tool-Aufrufe.

// Kontext-Fenster Komposition (14.336 Tokens)

Context Budget Guard

Vor jedem LLM-Call wird die Token-Summe geprüft. Überschreitet sie das Budget, wird der Gesprächsverlauf automatisch gekürzt — älteste Nachrichten zuerst. Der Agent-Prompt und die Tool-Definitionen bleiben immer vollständig erhalten.

Dynamische Kompression

Das verfügbare Kontext-Budget wird dynamisch berechnet: kürzere Agenten-Prompts lassen mehr Platz für Gesprächsverlauf und Memories. Agenten mit umfangreichen Tool-Sets kompensieren durch kürzere System-Prompts.

Agent-Splitting

Statt einen Agenten mit riesigem Prompt zu überladen, verteilt AIMOS Arbeit auf Spezialisten mit kurzen, fokussierten Prompts. Jeder Agent beherrscht sein Fachgebiet — weniger Prompt, mehr Platz für Kontext.

Infrastruktur

SovereignNode

Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.

Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die Agenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).

Komponente	Minimum	Empfohlen
GPU	NVIDIA RTX 3090 (24 GB VRAM)	NVIDIA RTX 5090 (32 GB VRAM)
RAM	32 GB DDR4	64 GB DDR5
Speicher	256 GB SSD	1 TB NVMe
CPU	8 Kerne	16+ Kerne
OS	Ubuntu 24.04 LTS	Ubuntu 26.04 LTS

Dual-DB

Dual-DB-Architektur

AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:

PostgreSQL (Relay-Datenbank)

Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und Agenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.

SQLite (Agent-Memory)

Jeder Agent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.

Interoperabilität

Agent-Portabilität

AIMOS-Agenten sind portabel, kompatibel und interoperabel durch offene Standards.

OAP Export/Import

Das Open Agent Package Format ermöglicht den vollständigen Export eines Agenten inklusive Memory, Skills und Konfiguration als portables Archiv.

agent_export.oap

config.yaml

memory.sqlite

skills/

prompts/

MCP Bridge (39 Tools)

Das Model Context Protocol ermöglicht externen LLMs (Claude, GPT, etc.) den Zugriff auf AIMOS-Skills. 39 Tools stehen als MCP-Server bereit.

sql_query file_read rest_call memory_search +35 mehr

A2A Agent Cards

Jeder Agent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.

"name": "Konstruktions-Agent",

"skills": ["cad_read", "bom_gen"],

"trust_ring": 1

Technische Highlights

Was AIMOS auszeichnet

Native Tool-Calling

Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der Agent steuert Systeme direkt, statt Aktionen nur zu beschreiben.

Mehrsprachige Sprache

Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — Agenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.

Token-Tracking

Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro Agent, pro Gespräch, pro Monat.

Conversation Threading

Jeder Agent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.