Infrastruktur
Hardware, Datenbanken, Portabilität — die physische und logische Basis Ihres SovereignNode.
Infrastruktur
Ein einzelner Server. Lokale GPU. Keine Cloud-Abhängigkeit. Der SovereignNode ist das Herzstück jeder AIMOS-Installation — ein physischer oder virtueller Server, der alle Komponenten beherbergt.
Alles läuft on-premise: die LLM-Inferenz, die Datenbanken, die KI-Assistenten-Prozesse und die Kommunikationskanäle. Kein Byte verlässt Ihr Netzwerk — es sei denn, Sie konfigurieren es explizit (z.B. Telegram-Nachrichten).
| Starter | Business | Professional | Enterprise | |
|---|---|---|---|---|
| Hardware | ||||
| GPU | RTX 4060 Ti 16 GB |
RTX 3090 / 5090 24–32 GB |
2× RTX 3090 NVLink 48 GB |
A100 / H100 80+ GB |
| KI-Modell | 14B (Q4) | 27B (Q4) | 70B (Q4) | 70B (Q4) + 9B Draft |
| Speculative Decoding | — | Optional auf 5090: +4B Draft |
+4B Draft ~17K Context |
+9B Draft ~75K Context |
| Geschwindigkeit | ~30 Tok/s | ~35 Tok/s 5090+Spec: ~90 Tok/s |
~20 Tok/s +Spec: ~50 Tok/s |
~40 Tok/s +Spec: ~100 Tok/s |
| KI-Assistenten | 2–4 | 5–10 5090+Spec: 10–20 |
5–10 | 15–30 |
| Technologie | TurboQuant | TurboQuant + SGLang |
TurboQuant + NVLink + Spec. |
TurboQuant + SGLang + Spec. Decoding |
| Hardware ca. | ab 1.200 EUR GPU ~400 EUR |
ab 2.000 EUR 3090: ~700 | 5090: ~3.500 |
ab 2.500 EUR 2× 3090 + NVLink |
auf Anfrage A100: ab ~3.500 gebr. |
| Aufgabeneignung | ||||
| ERP-Abfragen | ||||
| Datenextraktion | ||||
| Terminverwaltung | ||||
| Interner Support | ||||
| Dokumentensuche | ||||
| Kundenkontakt | ||||
| Techn. Beratung | ||||
| Mehrsprachig | ||||
| Compliance | ||||
Basierend auf IFEval, MT-Bench, BFCL und Qwen/Llama Benchmarks (2024). Ubuntu 24.04/26.04 LTS, 16+ CPU-Kerne empfohlen.
Architekturübersicht
Dual-DB
AIMOS nutzt zwei Datenbanksysteme mit klar getrennten Verantwortlichkeiten:
Zentrale Nachrichtenweiterleitung zwischen Shared Listener, Orchestrator und KI-Assistenten. Speichert eingehende Nachrichten, Audit-Logs, PII-Vault-Mappings und Session-Daten. Multi-Process-fähig durch Connection Pooling.
Jeder KI-Assistent hat seine eigene SQLite-Datenbank mit semantischem, episodischem und prozeduralem Gedächtnis. Hybrid-Suche über FTS5 + Vektor-Embeddings. Portabel durch einfaches Kopieren der Datei.
Interoperabilität
AIMOS-Assistenten sind portabel, kompatibel und interoperabel durch offene Standards.
Das Open Agent Package Format ermöglicht den vollständigen Export eines KI-Assistenten inklusive Memory, Skills und Konfiguration als portables Archiv.
Alle AIMOS-Skills können optional als MCP-Server exponiert werden. Externe LLMs (Claude, GPT, etc.) können so auf die Werkzeuge zugreifen — als Zusatzschnittstelle, nicht als primärer Kommunikationsweg.
Jeder KI-Assistent publiziert eine Agent Card (JSON-LD) nach Google A2A-Spezifikation. Externe Systeme können Fähigkeiten, Eingabeformate und Vertrauensstufe abfragen.
Technische Highlights
Keine Text-Hacks oder Regex-Parsing — AIMOS nutzt die native Tool-Calling-API des LLM. Der KI-Assistent steuert Systeme direkt, statt Aktionen nur zu beschreiben.
Spracherkennung (Whisper STT) und Sprachsynthese (Piper TTS) in allen Sprachen — KI-Assistenten verstehen Sprachnachrichten und antworten in der Muttersprache des Nutzers.
Jeder LLM-Call wird erfasst: Input-/Output-Tokens, Latenz, Kontextauslastung. Volle Kostentransparenz pro KI-Assistent, pro Gespräch, pro Monat.
Jeder KI-Assistent weiß, mit wem er auf welchem Kanal spricht. Telegram, E-Mail und interne Nachrichten werden sauber getrennt — keine Verwechslung zwischen Gesprächspartnern.