Infrastruktur

System & Infrastruktur

Hardware, Datenbanken, Portabilität — die physische und logische Basis Ihres SovereignNode.

Infrastruktur

SovereignNode

Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.

Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die KI-Assistenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).

Starter Business Professional Enterprise
Hardware
GPU RTX 4060 Ti
16 GB
RTX 3090 / 5090
24–32 GB
2× RTX 3090 NVLink
48 GB
A100 / H100
80+ GB
KI-Modell 14B (Q4) 27B (Q4) 70B (Q4) 70B (Q4) + 9B Draft
Speculative Decoding Optional
auf 5090: +4B Draft
+4B Draft
~17K Context
+9B Draft
~75K Context
Geschwindigkeit ~30 Tok/s ~35 Tok/s
5090+Spec: ~90 Tok/s
~20 Tok/s
+Spec: ~50 Tok/s
~40 Tok/s
+Spec: ~100 Tok/s
KI-Assistenten 2–4 5–10
5090+Spec: 10–20
5–10 15–30
Technologie TurboQuant TurboQuant
+ SGLang
TurboQuant
+ NVLink + Spec.
TurboQuant + SGLang
+ Spec. Decoding
Hardware ca. ab 1.200 EUR
GPU ~400 EUR
ab 2.000 EUR
3090: ~700 | 5090: ~3.500
ab 2.500 EUR
2× 3090 + NVLink
auf Anfrage
A100: ab ~3.500 gebr.
Aufgabeneignung
ERP-Abfragen
Datenextraktion
Termin­verwaltung
Interner Support
Dokumenten­suche
Kunden­kontakt
Techn. Beratung
Mehrsprachig
Compliance
Exzellent Gut Möglich, mit Einschränkungen Nicht empfohlen

Basierend auf IFEval, MT-Bench, BFCL und Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ CPU-Kerne empfohlen.

Architekturübersicht

SovereignNode GPU (NVIDIA CUDA / LLM Runtime) Qwen 3.5:27B (Q4, ~17 GB VRAM, native Tool-Calling) PostgreSQL SQLite (Memory) Orchestrator + VRAM Guard Assistent A Assistent B Assistent C Shared Listener (Telegram, E-Mail, Voice)

Dual-DB

Dual-DB-Architektur

AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:

PostgreSQL (Relay-Datenbank)

Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und KI-Assistenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.

SQLite (Assistenten-Memory)

Jeder KI-Assistent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.

PostgreSQL message_relay audit_log pii_vault sessions llm_usage SQLite (je Assistent) semantic_memory episodic_memory procedural_memory vector_embeddings dreaming_log Sync via Orchestrator

Interoperabilität

Assistenten-Portabilität

AIMOS-Assistenten sind portabel, kompatibel und interoperabel durch offene Standards.

OAP Export/Import

Das Open Agent Package Format ermöglicht den vollständigen Export eines KI-Assistenten inklusive Memory, Skills und Konfiguration als portables Archiv.

assistenten_export.oap
  config.yaml
  memory.sqlite
  skills/
  prompts/

MCP-Kompatibilit

MCP-Kompatibilität

auml;t

Alle AIMOS-Skills können optional als MCP-Server exponiert werden. Externe LLMs (Claude, GPT, etc.) können so auf die Werkzeuge zugreifen — als Zusatzschnittstelle, nicht als primärer Kommunikationsweg.

sql_query file_read rest_call memory_search +weitere

A2A Assistenten-Profile

Jeder KI-Assistent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.

"name": "Konstruktions-Assistent",
"skills": ["cad_read", "bom_gen"],
"trust_ring": 1
SovereignNode A Export: assistent.oap Transfer OAP (Memory + Skills + Config) Import SovereignNode B Assistent aktiv

Technische Highlights

Was AIMOS auszeichnet

Native Tool-Calling

Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der KI-Assistent steuert Systeme direkt, statt Aktionen nur zu beschreiben.

Mehrsprachige Sprache

Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — KI-Assistenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.

Token-Tracking

Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro KI-Assistent, pro Gespräch, pro Monat.

Conversation Threading

Jeder KI-Assistent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.