System & Infrastruktur

Infrastruktur

SovereignNode

Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.

Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die KI-Assistenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).

	Starter	Business	Professional	Enterprise
Hardware
GPU	RTX 4060 Ti 16 GB	RTX 3090 / 5090 24–32 GB	2× RTX 3090 NVLink 48 GB	A100 / H100 80+ GB
KI-Modell	14B (Q4)	27B (Q4)	70B (Q4)	70B (Q4) + 9B Draft
Speculative Decoding	—	Optional auf 5090: +4B Draft	+4B Draft ~17K Context	+9B Draft ~75K Context
Geschwindigkeit	~30 Tok/s	~35 Tok/s 5090+Spec: ~90 Tok/s	~20 Tok/s +Spec: ~50 Tok/s	~40 Tok/s +Spec: ~100 Tok/s
KI-Assistenten	2–4	5–10 5090+Spec: 10–20	5–10	15–30
Technologie	TurboQuant	TurboQuant + SGLang	TurboQuant + NVLink + Spec.	TurboQuant + SGLang + Spec. Decoding
Hardware ca.	ab 1.200 EUR GPU ~400 EUR	ab 2.000 EUR 3090: ~700 \| 5090: ~3.500	ab 2.500 EUR 2× 3090 + NVLink	auf Anfrage A100: ab ~3.500 gebr.
Aufgabeneignung
ERP-Abfragen
Datenextraktion
Terminverwaltung
Interner Support
Dokumentensuche
Kundenkontakt
Techn. Beratung
Mehrsprachig
Compliance

Exzellent Gut Möglich, mit Einschränkungen Nicht empfohlen

Basierend auf IFEval, MT-Bench, BFCL und Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ CPU-Kerne empfohlen.

Architekturübersicht

Dual-DB

Dual-DB-Architektur

AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:

PostgreSQL (Relay-Datenbank)

Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und KI-Assistenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.

SQLite (Assistenten-Memory)

Jeder KI-Assistent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.

Interoperabilität

Assistenten-Portabilität

AIMOS-Assistenten sind portabel, kompatibel und interoperabel durch offene Standards.

OAP Export/Import

Das Open Agent Package Format ermöglicht den vollständigen Export eines KI-Assistenten inklusive Memory, Skills und Konfiguration als portables Archiv.

assistenten_export.oap

config.yaml

memory.sqlite

skills/

prompts/

MCP-Kompatibilit

MCP-Kompatibilität

auml;t

Alle AIMOS-Skills können optional als MCP-Server exponiert werden. Externe LLMs (Claude, GPT, etc.) können so auf die Werkzeuge zugreifen — als Zusatzschnittstelle, nicht als primärer Kommunikationsweg.

sql_query file_read rest_call memory_search +weitere

A2A Assistenten-Profile

Jeder KI-Assistent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.

"name": "Konstruktions-Assistent",

"skills": ["cad_read", "bom_gen"],

"trust_ring": 1

Technische Highlights

Was AIMOS auszeichnet

Native Tool-Calling

Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der KI-Assistent steuert Systeme direkt, statt Aktionen nur zu beschreiben.

Mehrsprachige Sprache

Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — KI-Assistenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.

Token-Tracking

Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro KI-Assistent, pro Gespräch, pro Monat.

Conversation Threading

Jeder KI-Assistent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.