Technische Dokumentation
Von der Herausforderung bis zum LLM-Aufruf — die Architektur-Prinzipien von AIMOS.
Die Herausforderung
Cloud-LLMs arbeiten mit riesigen Kontextfenstern auf spezialisierten Server-Clustern. AIMOS läuft auf einer einzigen Grafikkarte in Ihrem Büro — und erreicht mit architektonischen Mitteln eine Leistung, die für Unternehmensaufgaben nicht nur ausreicht, sondern oft bessere Ergebnisse liefert als überdimensionierte Cloud-Modelle.
Modelle mit 200 Milliarden Parametern und 1 Million Tokens Kontext sind beeindruckend — aber für strukturierte Unternehmensaufgaben oft überdimensioniert. Umgekehrt braucht externer Kundenkontakt ein größeres Modell als interne Datenabfragen. AIMOS skaliert mit der Aufgabe.
Einfache Steuerfälle, Beleg-Kategorisierung, Status-Emails. Läuft auf einer RTX 4060 Ti (16 GB, ab 400 €). Mit Multi-Pass Self-Refinement ~80% der 27B-Qualität.
Voller Steuerberater-Assistent, FuSa Safety Manager, komplexe Analysen. Präzise Tool-Calls (~86% BFCL), 33K Context mit TurboQuant KV-Kompression. Auf RTX 3090 (24 GB) oder RTX 5090 mit Speculative Decoding (~7× schneller).
Beide Modellgrößen laufen auf derselben AIMOS-Plattform. Ein Upgrade von 27B auf 70B ist jederzeit möglich — durch Hardware-Tausch, ohne Neukonfiguration der KI-Assistenten.
AIMOS kompensiert das kleinere Kontextfenster nicht durch größere Hardware — sondern durch Architektur, die dafür sorgt, dass der KI-Assistent genau das im Kontext hat, was er für die aktuelle Aufgabe braucht.
AIMOS kompensiert das mit sieben Architektur-Prinzipien, die auf dieser Seite im Detail erklärt werden:
Datenfluss
Nachrichten kommen über verschiedene Kanäle rein, werden zentral verteilt und vom passenden KI-Assistenten bearbeitet — auf einer gemeinsamen GPU.
Architektur-Prinzipien
Jedes Prinzip adressiert eine konkrete Einschränkung des lokalen Betriebs — zusammen ermöglichen sie Unternehmenstauglichkeit auf einer einzigen GPU.
Unbegrenzte Fakten statt endlicher Kontext-Tokens
Jeder KI-Assistent hat ein eigenes Gedächtnis mit zwei Suchmechanismen: FTS5 (Volltextsuche) und MiniLM-L6-v2 (384-dimensionale Vektor-Embeddings). Die Ergebnisse werden per Reciprocal Rank Fusion kombiniert — relevante Erinnerungen werden auch bei ungenauen Suchbegriffen gefunden.
Statt 200.000 Tokens Verlauf zu speichern, merkt sich der KI-Assistent die relevanten Fakten — und findet sie mit der richtigen Frage sofort wieder. Die Anzahl gespeicherter Erinnerungen ist unbegrenzt.
Wissen sichern, bevor der Kontext voll wird
Nicht zeitgesteuert, sondern durch Kontextdruck: Überschreitet der Gesprächsverlauf die Schwelle (12/18/25 Nachrichten, je nach Assistent), startet der Orchestrator einen Dreaming-Zyklus.
Das LLM analysiert den Verlauf und extrahiert Fakten als MEM:-Zeilen ins Langzeitgedächtnis. Gleichzeitig werden Workspace-Dateien (Notizen, Todo-Listen) über FILE:-Zeilen aktualisiert.
Anschließend wird der Verlauf gelöscht — ohne Informationsverlust. Wochenberichte (Phase 5) fassen zusätzlich alle 7 Tage den Stand zusammen.
Spezialisten statt Überflieger
Statt einen KI-Assistenten mit riesigem System-Prompt zu überladen, verteilt AIMOS Aufgaben auf mehrere Spezialisten mit kurzen, fokussierten Prompts. Jeder KI-Assistent belegt nur 17–22% seines Kontextfensters für den System-Prompt — der Rest bleibt für Gedächtnis, Gespräch und Antwort.
Automatisches Token-Management vor jedem LLM-Call
KV-Cache (Key-Value Cache) = der Arbeitsspeicher des Sprachmodells während einer Konversation. Hier liegen System-Prompt, Gedächtnis, Gesprächsverlauf und die reservierten Tokens für die Antwort. Je mehr VRAM für den KV-Cache übrig bleibt, desto längere und tiefere Gespräche sind möglich.
Was steckt im KV-Cache? ↓
Der History-Cap passt sich dynamisch an: KI-Assistenten mit kurzem Prompt (17%) behalten bis zu 35 Nachrichten, KI-Assistenten mit langem Prompt nur 15. Vor jedem LLM-Call wird die Token-Summe geprüft — überschreitet sie das Budget, wird automatisch gekürzt. Der KI-Assistent-Prompt und die Tool-Definitionen bleiben dabei immer vollständig erhalten.
Maximale Information bei minimalen Tokens
Statt Kalender, Projekte und Kontakte als Freitext in den Kontext zu packen, injiziert AIMOS sie als kompakte, strukturierte Blöcke. Das LLM versteht diese Formate mit minimalen Tokens und kann sofort darauf reagieren.
Alle KI-Assistenten teilen eine GPU, ein Modell
27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.
Der Orchestrator erkennt neue Nachrichten in der DB-Queue, spawnt den zuständigen KI-Assistenten und stellt sicher, dass nur ein KI-Assistent gleichzeitig die GPU belegt. Heartbeat-Überwachung erkennt hängende Prozesse (>60s) und gibt blockierten VRAM frei.
Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: der Prefix-Cache wird zwischen KI-Assistenten geteilt — Agent-Wechsel in Millisekunden statt Sekunden.
Das Modell bleibt 30 Minuten im VRAM. Alle KI-Assistenten teilen sich dasselbe Modell — kein Entladen beim KI-Assistenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.
Automatischer Fallback bei komplexen Aufgaben
Übersteigt eine Aufgabe die Fähigkeiten des lokalen 27B-Modells — oder tritt ein Timeout auf — eskaliert der KI-Assistent automatisch an ein leistungsstärkeres Cloud-LLM (z.B. Claude Sonnet). Der Benutzer merkt nichts; er erhält immer eine Antwort.
Vor der Eskalation anonymisiert der PII-Vault automatisch alle personenbezogenen Daten: Namen, Telefonnummern, E-Mail-Adressen, Firmennamen. Nur die bereinigte Frage verlässt das Netzwerk. Die Antwort wird lokal re-personalisiert. Ihre Daten bleiben immer lokal.