Architektur — AIMOS

Die Herausforderung

32 GB VRAM — mehr braucht es nicht

Cloud-LLMs arbeiten mit riesigen Kontextfenstern auf spezialisierten Server-Clustern. AIMOS läuft auf einer einzigen Grafikkarte in Ihrem Büro — und erreicht mit architektonischen Mitteln eine Leistung, die für Unternehmensaufgaben nicht nur ausreicht, sondern oft bessere Ergebnisse liefert als überdimensionierte Cloud-Modelle.

// Kontextfenster im Vergleich (Tokens)

Das richtige Modell für die richtige Aufgabe

Modelle mit 200 Milliarden Parametern und 1 Million Tokens Kontext sind beeindruckend — aber für strukturierte Unternehmensaufgaben oft überdimensioniert. Umgekehrt braucht externer Kundenkontakt ein größeres Modell als interne Datenabfragen. AIMOS skaliert mit der Aufgabe.

14B — Starter

Einfache Steuerfälle, Beleg-Kategorisierung, Status-Emails. Läuft auf einer RTX 4060 Ti (16 GB, ab 400 €). Mit Multi-Pass Self-Refinement ~80% der 27B-Qualität.

27B — Business

Voller Steuerberater-Assistent, FuSa Safety Manager, komplexe Analysen. Präzise Tool-Calls (~86% BFCL), 33K Context mit TurboQuant KV-Kompression. Auf RTX 3090 (24 GB) oder RTX 5090 mit Speculative Decoding (~7× schneller).

Gleiche Software

Beide Modellgrößen laufen auf derselben AIMOS-Plattform. Ein Upgrade von 27B auf 70B ist jederzeit möglich — durch Hardware-Tausch, ohne Neukonfiguration der KI-Assistenten.

Sieben Architektur-Prinzipien statt roher Rechenleistung

AIMOS kompensiert das kleinere Kontextfenster nicht durch größere Hardware — sondern durch Architektur, die dafür sorgt, dass der KI-Assistent genau das im Kontext hat, was er für die aktuelle Aufgabe braucht.

AIMOS kompensiert das mit sieben Architektur-Prinzipien, die auf dieser Seite im Detail erklärt werden:

1 Langzeitgedächtnis 2 Dreaming 3 Assistenten-Splitting 4 Budget Guard 5 Kontext-Injektion 6 VRAM-Sharing 7 Eskalation

Architektur-Prinzipien

Sieben Prinzipien für lokale KI-Leistung

Jedes Prinzip adressiert eine konkrete Einschränkung des lokalen Betriebs — zusammen ermöglichen sie Unternehmenstauglichkeit auf einer einzigen GPU.

Hybrid-Langzeitgedächtnis

Unbegrenzte Fakten statt endlicher Kontext-Tokens

Jeder KI-Assistent hat ein eigenes Gedächtnis mit zwei Suchmechanismen: FTS5 (Volltextsuche) und MiniLM-L6-v2 (384-dimensionale Vektor-Embeddings). Die Ergebnisse werden per Reciprocal Rank Fusion kombiniert — relevante Erinnerungen werden auch bei ungenauen Suchbegriffen gefunden.

Statt 200.000 Tokens Verlauf zu speichern, merkt sich der KI-Assistent die relevanten Fakten — und findet sie mit der richtigen Frage sofort wieder. Die Anzahl gespeicherter Erinnerungen ist unbegrenzt.

// Hybrid-Suche in Aktion

FTS5: "Lieferant Stahlprofile" → 12 Treffer

Vector: "Wer liefert Träger?" → 8 Treffer

RRF: Fusion → Top 20, nach Relevanz sortiert

Gespeichert in: SQLite (je Assistent)
Embedding-Modell: lokal, kein Cloud-Call

Dreaming (Gedächtniskonsolidierung)

Wissen sichern, bevor der Kontext voll wird

Auslöser

Nicht zeitgesteuert, sondern durch Kontextdruck: Überschreitet der Gesprächsverlauf die Schwelle (12/18/25 Nachrichten, je nach Assistent), startet der Orchestrator einen Dreaming-Zyklus.

Ablauf

Das LLM analysiert den Verlauf und extrahiert Fakten als MEM:-Zeilen ins Langzeitgedächtnis. Gleichzeitig werden Workspace-Dateien (Notizen, Todo-Listen) über FILE:-Zeilen aktualisiert.

Ergebnis

Anschließend wird der Verlauf gelöscht — ohne Informationsverlust. Wochenberichte (Phase 5) fassen zusätzlich alle 7 Tage den Stand zusammen.

Assistenten-Splitting

Spezialisten statt Überflieger

Statt einen KI-Assistenten mit riesigem System-Prompt zu überladen, verteilt AIMOS Aufgaben auf mehrere Spezialisten mit kurzen, fokussierten Prompts. Jeder KI-Assistent belegt nur 17–22% seines Kontextfensters für den System-Prompt — der Rest bleibt für Gedächtnis, Gespräch und Antwort.

99%

Ein KI-Assistent, 11K Prompt

Timeout, kein Platz

17%

Spezialist A, 1.5K Prompt

83% frei für Arbeit

19%

Spezialist B, 2.8K Prompt

81% frei für Arbeit

Context Budget Guard

Automatisches Token-Management vor jedem LLM-Call

// VRAM-Budget nach Hardware-Stufe (maßstabsgetreu)

KV-Cache (Key-Value Cache) = der Arbeitsspeicher des Sprachmodells während einer Konversation. Hier liegen System-Prompt, Gedächtnis, Gesprächsverlauf und die reservierten Tokens für die Antwort. Je mehr VRAM für den KV-Cache übrig bleibt, desto längere und tiefere Gespräche sind möglich.

Was steckt im KV-Cache? ↓

// Inhalt des KV-Cache (Beispiel: Business, 28.000 Tokens)

Der History-Cap passt sich dynamisch an: KI-Assistenten mit kurzem Prompt (17%) behalten bis zu 35 Nachrichten, KI-Assistenten mit langem Prompt nur 15. Vor jedem LLM-Call wird die Token-Summe geprüft — überschreitet sie das Budget, wird automatisch gekürzt. Der KI-Assistent-Prompt und die Tool-Definitionen bleiben dabei immer vollständig erhalten.

Strukturierte Kontext-Injektion

Maximale Information bei minimalen Tokens

Statt Kalender, Projekte und Kontakte als Freitext in den Kontext zu packen, injiziert AIMOS sie als kompakte, strukturierte Blöcke. Das LLM versteht diese Formate mit minimalen Tokens und kann sofort darauf reagieren.

[OVERDUE] 2026-03-20 Angebot

[TODAY] 15:00 Besprechung

</calendar>

[OVERDUE] Statik → Müller

[BLOCKED] Zeichnung fehlt

</projects>

Firma nutzt DATEV (imp=9)

Chef heisst Müller (imp=8)

</memories>

Sequenzieller VRAM-Betrieb

Alle KI-Assistenten teilen eine GPU, ein Modell

Qwen 3.5:27B (Q4, ~17 GB VRAM)

27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.

Orchestrator & VRAM Guard

Der Orchestrator erkennt neue Nachrichten in der DB-Queue, spawnt den zuständigen KI-Assistenten und stellt sicher, dass nur ein KI-Assistent gleichzeitig die GPU belegt. Heartbeat-Überwachung erkennt hängende Prozesse (>60s) und gibt blockierten VRAM frei.

SGLang & RadixAttention

Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: der Prefix-Cache wird zwischen KI-Assistenten geteilt — Agent-Wechsel in Millisekunden statt Sekunden.

Keep-Alive

Das Modell bleibt 30 Minuten im VRAM. Alle KI-Assistenten teilen sich dasselbe Modell — kein Entladen beim KI-Assistenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.

// Anatomie eines LLM-Requests

Eskalation & PII-Vault

Automatischer Fallback bei komplexen Aufgaben

Eskalation

Übersteigt eine Aufgabe die Fähigkeiten des lokalen 27B-Modells — oder tritt ein Timeout auf — eskaliert der KI-Assistent automatisch an ein leistungsstärkeres Cloud-LLM (z.B. Claude Sonnet). Der Benutzer merkt nichts; er erhält immer eine Antwort.

PII-Vault (Anonymisierung)

Vor der Eskalation anonymisiert der PII-Vault automatisch alle personenbezogenen Daten: Namen, Telefonnummern, E-Mail-Adressen, Firmennamen. Nur die bereinigte Frage verlässt das Netzwerk. Die Antwort wird lokal re-personalisiert. Ihre Daten bleiben immer lokal.

Technische Architektur