Technische Dokumentation

Technische Architektur

Von der Herausforderung bis zum LLM-Aufruf — die Architektur-Prinzipien von AIMOS.

Die Herausforderung

32 GB VRAM — mehr braucht es nicht

Cloud-LLMs arbeiten mit riesigen Kontextfenstern auf spezialisierten Server-Clustern. AIMOS läuft auf einer einzigen Grafikkarte in Ihrem Büro — und erreicht mit architektonischen Mitteln eine Leistung, die für Unternehmensaufgaben nicht nur ausreicht, sondern oft bessere Ergebnisse liefert als überdimensionierte Cloud-Modelle.

// Kontextfenster im Vergleich (Tokens)
250K 500K 750K 1.000K Gemini 2.5 1.000.000 Cloud • $$$ Claude 4 200.000 Cloud • $$ GPT-4o 128.000 Cloud • $$ AIMOS — Lokal, Ihre GPU, Ihre Daten — TurboQuant KV-Kompression (ICLR 2026) Starter 20K — RTX 4060 Ti 16 GB, Qwen 14B Business 33K — RTX 3090 24 GB, Qwen 27B Business+ 52K — RTX 5090 32 GB + Speculative Decoding + SGLang Professional 100K+ — 2× RTX 3090 NVLink 48 GB / A100 80 GB TurboQuant: 3-Bit KV → 6× mehr Kontext Kleineres Kontextfenster als Cloud — aber: TurboQuant + Architektur kompensieren das. Und: Ihre Daten bleiben bei Ihnen.

Das richtige Modell für die richtige Aufgabe

Modelle mit 200 Milliarden Parametern und 1 Million Tokens Kontext sind beeindruckend — aber für strukturierte Unternehmensaufgaben oft überdimensioniert. Umgekehrt braucht externer Kundenkontakt ein größeres Modell als interne Datenabfragen. AIMOS skaliert mit der Aufgabe.

14B — Starter

Einfache Steuerfälle, Beleg-Kategorisierung, Status-Emails. Läuft auf einer RTX 4060 Ti (16 GB, ab 400 €). Mit Multi-Pass Self-Refinement ~80% der 27B-Qualität.

27B — Business

Voller Steuerberater-Assistent, FuSa Safety Manager, komplexe Analysen. Präzise Tool-Calls (~86% BFCL), 33K Context mit TurboQuant KV-Kompression. Auf RTX 3090 (24 GB) oder RTX 5090 mit Speculative Decoding (~7× schneller).

Gleiche Software

Beide Modellgrößen laufen auf derselben AIMOS-Plattform. Ein Upgrade von 27B auf 70B ist jederzeit möglich — durch Hardware-Tausch, ohne Neukonfiguration der KI-Assistenten.

Sieben Architektur-Prinzipien statt roher Rechenleistung

AIMOS kompensiert das kleinere Kontextfenster nicht durch größere Hardware — sondern durch Architektur, die dafür sorgt, dass der KI-Assistent genau das im Kontext hat, was er für die aktuelle Aufgabe braucht.

AIMOS kompensiert das mit sieben Architektur-Prinzipien, die auf dieser Seite im Detail erklärt werden:

Datenfluss

System-Übersicht

Nachrichten kommen über verschiedene Kanäle rein, werden zentral verteilt und vom passenden KI-Assistenten bearbeitet — auf einer gemeinsamen GPU.

EINGÄNGE Telegram E-Mail Sprache Dashboard Shared Listener empfängt alle Kanäle PostgreSQL Message Queue Orchestrator VRAM Guard • Prozess-Manager Finanz-Assistent Memory • DATEV • ETA Konstruktions-Assistent Memory • FEM • DXF Logistik-Assistent Memory • SAP • REST Ihr KI-Assistent Memory • Ihre Skills GPU — Lokale LLM-Inferenz Qwen 3.5:27B • RTX 5090 • 32 GB VRAM sequenziell Nachrichten einsammeln zwischenspeichern verteilen KI-Assistenten Datenbank Orchestrator GPU / LLM

Architektur-Prinzipien

Sieben Prinzipien für lokale KI-Leistung

Jedes Prinzip adressiert eine konkrete Einschränkung des lokalen Betriebs — zusammen ermöglichen sie Unternehmens­tauglichkeit auf einer einzigen GPU.

1

Hybrid-Langzeitgedächtnis

Unbegrenzte Fakten statt endlicher Kontext-Tokens

Jeder KI-Assistent hat ein eigenes Gedächtnis mit zwei Suchmechanismen: FTS5 (Volltextsuche) und MiniLM-L6-v2 (384-dimensionale Vektor-Embeddings). Die Ergebnisse werden per Reciprocal Rank Fusion kombiniert — relevante Erinnerungen werden auch bei ungenauen Suchbegriffen gefunden.

Statt 200.000 Tokens Verlauf zu speichern, merkt sich der KI-Assistent die relevanten Fakten — und findet sie mit der richtigen Frage sofort wieder. Die Anzahl gespeicherter Erinnerungen ist unbegrenzt.

// Hybrid-Suche in Aktion
FTS5:  "Lieferant Stahlprofile" → 12 Treffer
Vector: "Wer liefert Träger?" → 8 Treffer
RRF:   Fusion → Top 20, nach Relevanz sortiert
Gespeichert in: SQLite (je Assistent)
Embedding-Modell: lokal, kein Cloud-Call
2

Dreaming (Gedächtniskonsolidierung)

Wissen sichern, bevor der Kontext voll wird

Auslöser

Nicht zeitgesteuert, sondern durch Kontextdruck: Überschreitet der Gesprächsverlauf die Schwelle (12/18/25 Nachrichten, je nach Assistent), startet der Orchestrator einen Dreaming-Zyklus.

Ablauf

Das LLM analysiert den Verlauf und extrahiert Fakten als MEM:-Zeilen ins Langzeitgedächtnis. Gleichzeitig werden Workspace-Dateien (Notizen, Todo-Listen) über FILE:-Zeilen aktualisiert.

Ergebnis

Anschließend wird der Verlauf gelöscht — ohne Informationsverlust. Wochenberichte (Phase 5) fassen zusätzlich alle 7 Tage den Stand zusammen.

3

Assistenten-Splitting

Spezialisten statt Überflieger

Statt einen KI-Assistenten mit riesigem System-Prompt zu überladen, verteilt AIMOS Aufgaben auf mehrere Spezialisten mit kurzen, fokussierten Prompts. Jeder KI-Assistent belegt nur 17–22% seines Kontextfensters für den System-Prompt — der Rest bleibt für Gedächtnis, Gespräch und Antwort.

99%
Ein KI-Assistent, 11K Prompt
Timeout, kein Platz
17%
Spezialist A, 1.5K Prompt
83% frei für Arbeit
19%
Spezialist B, 2.8K Prompt
81% frei für Arbeit
4

Context Budget Guard

Automatisches Token-Management vor jedem LLM-Call

// VRAM-Budget nach Hardware-Stufe (maßstabsgetreu)
Starter RTX 4060 Ti 14B — 8,5 GB 5,5 GB ~20K Tok Business RTX 3090 27B — 16 GB 5,5 GB ~33K Tok (gemessen) Business+ RTX 5090 + SGLang 27B + 4B Draft = 18,5 GB 11 GB KV (turbo3) ~88K + Spec. Decoding Professional 2× 3090 NVLink oder A100 80 GB 70B — 35 GB 11 GB ~22K Tok Modell-Gewichte (fest) KV-Cache mit TurboQuant (3-Bit Kompression) Reserve Gleiche Software, unterschiedliche Kapazität. Starter: effizient. Business: Goldstandard. Professional: maximale Qualität. TurboQuant komprimiert den KV-Cache auf 3 Bit — 6× mehr Kontext auf der gleichen GPU. Speculative Decoding: bis 2,5× schneller.

KV-Cache (Key-Value Cache) = der Arbeitsspeicher des Sprachmodells während einer Konversation. Hier liegen System-Prompt, Gedächtnis, Gesprächsverlauf und die reservierten Tokens für die Antwort. Je mehr VRAM für den KV-Cache übrig bleibt, desto längere und tiefere Gespräche sind möglich.

+

Was steckt im KV-Cache? ↓

// Inhalt des KV-Cache (Beispiel: Business, 28.000 Tokens)
Core Prompt ~2.000 Assistent ~400-700 Tools ~400-600 Memories ~500-1.500 Kalender Projekte Gesprächsverlauf dynamisch (15-35 Nachrichten) Antwort ~2.000 reserv. Fix pro KI-Assistent (17-22%) Dynamisch (Gedächtnis + Konversation + Antwort) ! Budget überschritten? Älteste Nachrichten entfernen • Tool-Ergebnisse auf 200 Zeichen kürzen • Prompt + Tools bleiben vollständig

Der History-Cap passt sich dynamisch an: KI-Assistenten mit kurzem Prompt (17%) behalten bis zu 35 Nachrichten, KI-Assistenten mit langem Prompt nur 15. Vor jedem LLM-Call wird die Token-Summe geprüft — überschreitet sie das Budget, wird automatisch gekürzt. Der KI-Assistent-Prompt und die Tool-Definitionen bleiben dabei immer vollständig erhalten.

5

Strukturierte Kontext-Injektion

Maximale Information bei minimalen Tokens

Statt Kalender, Projekte und Kontakte als Freitext in den Kontext zu packen, injiziert AIMOS sie als kompakte, strukturierte Blöcke. Das LLM versteht diese Formate mit minimalen Tokens und kann sofort darauf reagieren.

<calendar>
[OVERDUE] 2026-03-20 Angebot
[TODAY] 15:00 Besprechung
</calendar>
<projects>
[OVERDUE] Statik → Müller
[BLOCKED] Zeichnung fehlt
</projects>
<memories>
Firma nutzt DATEV (imp=9)
Chef heisst Müller (imp=8)
</memories>
6

Sequenzieller VRAM-Betrieb

Alle KI-Assistenten teilen eine GPU, ein Modell

Qwen 3.5:27B (Q4, ~17 GB VRAM)

27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.

Orchestrator & VRAM Guard

Der Orchestrator erkennt neue Nachrichten in der DB-Queue, spawnt den zuständigen KI-Assistenten und stellt sicher, dass nur ein KI-Assistent gleichzeitig die GPU belegt. Heartbeat-Überwachung erkennt hängende Prozesse (>60s) und gibt blockierten VRAM frei.

SGLang & RadixAttention

Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: der Prefix-Cache wird zwischen KI-Assistenten geteilt — Agent-Wechsel in Millisekunden statt Sekunden.

Keep-Alive

Das Modell bleibt 30 Minuten im VRAM. Alle KI-Assistenten teilen sich dasselbe Modell — kein Entladen beim KI-Assistenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.

// Anatomie eines LLM-Requests
System Prompt + Memory Context Budget Guard Token-Check LLM Inference SGLang API Tool Dispatch Ring-Check Audit Log + Response Token-Tracking
7

Eskalation & PII-Vault

Automatischer Fallback bei komplexen Aufgaben

Eskalation

Übersteigt eine Aufgabe die Fähigkeiten des lokalen 27B-Modells — oder tritt ein Timeout auf — eskaliert der KI-Assistent automatisch an ein leistungsstärkeres Cloud-LLM (z.B. Claude Sonnet). Der Benutzer merkt nichts; er erhält immer eine Antwort.

PII-Vault (Anonymisierung)

Vor der Eskalation anonymisiert der PII-Vault automatisch alle personenbezogenen Daten: Namen, Telefonnummern, E-Mail-Adressen, Firmennamen. Nur die bereinigte Frage verlässt das Netzwerk. Die Antwort wird lokal re-personalisiert. Ihre Daten bleiben immer lokal.