Teknik Dokümantasyon
SovereignNode'dan LLM çağrısına kadar — AIMOS'un perde arkası böyle çalışır.
Yığın Diyagramı
Kullanıcı mesajından yanıta kadar tam veri akışı — tüm katmanlar bir bakışta.
Çıkarım
Yerel Çıkarım via SGLang. Sequenzieller Betrieb. Intelligentes VRAM-Management.
27 milyar parametreli model ile yerleşik Tool-Calling. Daha küçük modeller (<20B) güvenilir araç yönetiminde başarısız olur — değerlendirmemizin üretim açısından kritik bir sonucu.
OpenAI uyumlu API ucu noktası ile yüksek performanslı LLM Runtime. RadixAttention: Önek önbelleği ajanlar arasında paylaşılır — ajan değişikliğinde yeniden yükleme gerekmez.
VRAM Guard, aynı anda yalnızca bir ajanın GPU'ya erişmesini sağlar. İstekler veritabanı kuyruğunda tutulur ve sırayla işlenir — OOM yok, VRAM çakışması yok.
Model 30 dakika boyunca VRAM'de kalır. Tüm ajanlar aynı modeli paylaşır — ajan değişikliğinde boşaltma yok. VRAM ancak 30 dakika hareketsizlikten sonra serbest bırakılır.
Bağlam Yönetimi
14.336 Token bağlam penceresi. Her ajan prompt'u için %17–22 kullanır — geri kalanı bellek, konuşmalar ve araç çağrıları için kalır.
Vor jedem LLM-Call wird die Token-Summe geprüft. Überschreitet sie das Budget, wird der Konuşma Geçmişi automatisch gekürzt — älteste Nachrichten zuerst. Der Agent-Prompt und die Tool-Definitionen bleiben immer vollständig erhalten.
Das verfügbare Kontext-Budget wird dynamisch berechnet: kürzere Agenten-Prompts lassen mehr Platz für Konuşma Geçmişi und Memories. Agenten mit umfangreichen Tool-Sets kompensieren durch kürzere System-Prompts.
Dev bir prompt ile tek bir ajanı aşırı yüklemek yerine, AIMOS işi kısa, odaklanmış prompt'ları olan uzmanlara dağıtır. Her ajan kendi alanına hakimdir — daha az prompt, bağlam için daha fazla alan.
Altyapı
Tek bir sunucu. Yerel GPU. Bulut bağımlılığı yok. SovereignNode, her AIMOS kurulumunun kalbidir — tüm bileşenleri barındıran fiziksel veya sanal bir sunucu.
Her şey yerelde çalışır: LLM çıkarım, veritabanları, ajan süreçleri ve iletişim kanalları. Ağınızdan tek bir bayt bile çıkmaz — açıkça yapılandırmadığınız sürece (ör. Telegram mesajları).
| Bileşen | Minimum | Önerilen |
|---|---|---|
| GPU | NVIDIA RTX 3090 (24 GB VRAM) | NVIDIA RTX 5090 (32 GB VRAM) |
| RAM | 32 GB DDR4 | 64 GB DDR5 |
| Depolama | 256 GB SSD | 1 TB NVMe |
| CPU | 8 Çekirdek | 16+ Çekirdek |
| OS | Ubuntu 24.04 LTS | Ubuntu 26.04 LTS |
Çift-DB
AIMOS, sorumlulukları net olarak ayrılmış iki veritabanı sistemi kullanır:
Shared Listener, Orchestrator ve ajanlar arasında merkezi mesaj yönlendirme. Gelen mesajları, denetim kayıtlarını, PII-Vault eşleştirmelerini ve oturum verilerini saklar. Connection Pooling ile çoklu süreç desteği.
Her ajanın semantik, epizodik ve prosedürel belleği olan kendi SQLite veritabanı vardır. FTS5 + Vektör Embeddings üzerinden hibrit arama. Dosyanın basitçe kopyalanmasıyla taşınabilir.
İşbirliği
AIMOS ajanları açık standartlar sayesinde taşınabilir, uyumlu ve birlikte çalışabilirdir.
Açık Ajan Paketi formatı, bir ajanın bellek, yetenekler ve yapılandırma dahil tam olarak taşınabilir bir arşiv olarak dışa aktarılmasını sağlar.
Model Context Protocol, harici LLM'lerin (Claude, GPT, vb.) AIMOS yeteneklerine erişmesini sağlar. 39 araç MCP sunucusu olarak hazırdır.
Her ajan, Google A2A spesifikasyonuna göre bir Ajan Kartı (JSON-LD) yayınlar. Harici sistemler yetenekleri, giriş formatlarını ve güven seviyesini sorgulayabilir.
Teknik Öne Çıkanlar
Metin hileleri veya Regex ayrıştırma yok — AIMOS, LLM'in yerleşik Tool-Calling API'sini kullanır. Ajan eylemleri sadece açıklamak yerine sistemleri doğrudan yönetir.
Tüm dillerde konuşma tanıma (Whisper STT) ve konuşma sentezi (Piper TTS) — ajanlar sesli mesajları anlar ve kullanıcının ana dilinde yanıt verir.
Her LLM çağrısı kaydedilir: Giriş/Çıkış token'ları, gecikme, bağlam kullanımı. Ajan başına, konuşma başına, ay başına tam maliyet şeffaflığı.
Her ajan hangi kanalda kiminle konuştuğunu bilir. Telegram, e-posta ve dahili mesajlar temiz bir şekilde ayrılır — konuşma ortakları arasında karışıklık olmaz.