Technische Dokumentation
Vom SovereignNode bis zum LLM-Aufruf — so funktioniert AIMOS unter der Haube.
Stack-Diagramm
Der vollständige Datenfluss von der Benutzernachricht bis zur Antwort — alle Schichten im Überblick.
Inferenz
Lokale Inferenz via SGLang. Sequenzieller Betrieb. Intelligentes VRAM-Management.
27-Milliarden-Parameter-Modell mit nativem Tool-Calling. Kleinere Modelle (<20B) scheitern an zuverlässiger Werkzeugsteuerung — ein produktionskritisches Ergebnis unserer Evaluierung.
Hochperformante LLM-Runtime mit OpenAI-kompatiblem API-Endpunkt. RadixAttention: Prefix-Cache wird zwischen Agenten geteilt — kein Neuladen bei Agent-Wechsel.
Die VRAM Guard stellt sicher, dass nur ein Agent gleichzeitig auf die GPU zugreift. Anfragen werden in der Datenbank-Queue gehalten und sequenziell abgearbeitet — kein OOM, kein VRAM-Konflikt.
Das Modell bleibt 30 Minuten im VRAM. Alle Agenten teilen sich dasselbe Modell — kein Entladen beim Agenten-Wechsel. Erst nach 30 Minuten Inaktivität wird VRAM freigegeben.
Kontext-Management
14.336 Tokens Kontextfenster. Jeder Agent nutzt 17–22% für seinen Prompt — der Rest bleibt für Gedächtnis, Gespräche und Tool-Aufrufe.
Vor jedem LLM-Call wird die Token-Summe geprüft. Überschreitet sie das Budget, wird der Gesprächsverlauf automatisch gekürzt — älteste Nachrichten zuerst. Der Agent-Prompt und die Tool-Definitionen bleiben immer vollständig erhalten.
Das verfügbare Kontext-Budget wird dynamisch berechnet: kürzere Agenten-Prompts lassen mehr Platz für Gesprächsverlauf und Memories. Agenten mit umfangreichen Tool-Sets kompensieren durch kürzere System-Prompts.
Statt einen Agenten mit riesigem Prompt zu überladen, verteilt AIMOS Arbeit auf Spezialisten mit kurzen, fokussierten Prompts. Jeder Agent beherrscht sein Fachgebiet — weniger Prompt, mehr Platz für Kontext.
Infrastruktur
Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.
Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die Agenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).
| Komponente | Minimum | Empfohlen |
|---|---|---|
| GPU | NVIDIA RTX 3090 (24 GB VRAM) | NVIDIA RTX 5090 (32 GB VRAM) |
| RAM | 32 GB DDR4 | 64 GB DDR5 |
| Speicher | 256 GB SSD | 1 TB NVMe |
| CPU | 8 Kerne | 16+ Kerne |
| OS | Ubuntu 24.04 LTS | Ubuntu 26.04 LTS |
Dual-DB
AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:
Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und Agenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.
Jeder Agent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.
Interoperabilität
AIMOS-Agenten sind portabel, kompatibel und interoperabel durch offene Standards.
Das Open Agent Package Format ermöglicht den vollständigen Export eines Agenten inklusive Memory, Skills und Konfiguration als portables Archiv.
Das Model Context Protocol ermöglicht externen LLMs (Claude, GPT, etc.) den Zugriff auf AIMOS-Skills. 39 Tools stehen als MCP-Server bereit.
Jeder Agent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.
Technische Highlights
Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der Agent steuert Systeme direkt, statt Aktionen nur zu beschreiben.
Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — Agenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.
Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro Agent, pro Gespräch, pro Monat.
Jeder Agent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.