Teknik Dokümantasyon

Teknik Mimari

SovereignNode'dan LLM çağrısına kadar — AIMOS'un perde arkası böyle çalışır.

Yığın Diyagramı

Sistem Genel Bakış

Kullanıcı mesajından yanıta kadar tam veri akışı — tüm katmanlar bir bakışta.

Çıkarım

Yerel YZ Çıkarım

Yerel Çıkarım via SGLang. Sequenzieller Betrieb. Intelligentes VRAM-Management.

Qwen 3.5:27B (Q4, ~17 GB VRAM)

27 milyar parametreli model ile yerleşik Tool-Calling. Daha küçük modeller (<20B) güvenilir araç yönetiminde başarısız olur — değerlendirmemizin üretim açısından kritik bir sonucu.

SGLang Runtime

OpenAI uyumlu API ucu noktası ile yüksek performanslı LLM Runtime. RadixAttention: Önek önbelleği ajanlar arasında paylaşılır — ajan değişikliğinde yeniden yükleme gerekmez.

Sıralı Çalışma

VRAM Guard, aynı anda yalnızca bir ajanın GPU'ya erişmesini sağlar. İstekler veritabanı kuyruğunda tutulur ve sırayla işlenir — OOM yok, VRAM çakışması yok.

Keep-Alive / RadixAttention

Model 30 dakika boyunca VRAM'de kalır. Tüm ajanlar aynı modeli paylaşır — ajan değişikliğinde boşaltma yok. VRAM ancak 30 dakika hareketsizlikten sonra serbest bırakılır.

// Bir LLM İsteğinin Anatomisi

Bağlam Yönetimi

Bağlam Mimarisi

14.336 Token bağlam penceresi. Her ajan prompt'u için %17–22 kullanır — geri kalanı bellek, konuşmalar ve araç çağrıları için kalır.

// Bağlam Penceresi Bileşimi (14.336 Token)

Bağlam Bütçe Koruması

Vor jedem LLM-Call wird die Token-Summe geprüft. Überschreitet sie das Budget, wird der Konuşma Geçmişi automatisch gekürzt — älteste Nachrichten zuerst. Der Agent-Prompt und die Tool-Definitionen bleiben immer vollständig erhalten.

Dinamik Sıkıştırma

Das verfügbare Kontext-Budget wird dynamisch berechnet: kürzere Agenten-Prompts lassen mehr Platz für Konuşma Geçmişi und Memories. Agenten mit umfangreichen Tool-Sets kompensieren durch kürzere System-Prompts.

Ajan Bölünmesi

Dev bir prompt ile tek bir ajanı aşırı yüklemek yerine, AIMOS işi kısa, odaklanmış prompt'ları olan uzmanlara dağıtır. Her ajan kendi alanına hakimdir — daha az prompt, bağlam için daha fazla alan.

Altyapı

SovereignNode

Tek bir sunucu. Yerel GPU. Bulut bağımlılığı yok. SovereignNode, her AIMOS kurulumunun kalbidir — tüm bileşenleri barındıran fiziksel veya sanal bir sunucu.

Her şey yerelde çalışır: LLM çıkarım, veritabanları, ajan süreçleri ve iletişim kanalları. Ağınızdan tek bir bayt bile çıkmaz — açıkça yapılandırmadığınız sürece (ör. Telegram mesajları).

Bileşen	Minimum	Önerilen
GPU	NVIDIA RTX 3090 (24 GB VRAM)	NVIDIA RTX 5090 (32 GB VRAM)
RAM	32 GB DDR4	64 GB DDR5
Depolama	256 GB SSD	1 TB NVMe
CPU	8 Çekirdek	16+ Çekirdek
OS	Ubuntu 24.04 LTS	Ubuntu 26.04 LTS

Çift-DB

Çift Veritabanı Mimarisi

AIMOS, sorumlulukları net olarak ayrılmış iki veritabanı sistemi kullanır:

PostgreSQL (Relay Veritabanı)

Shared Listener, Orchestrator ve ajanlar arasında merkezi mesaj yönlendirme. Gelen mesajları, denetim kayıtlarını, PII-Vault eşleştirmelerini ve oturum verilerini saklar. Connection Pooling ile çoklu süreç desteği.

SQLite (Ajan Belleği)

Her ajanın semantik, epizodik ve prosedürel belleği olan kendi SQLite veritabanı vardır. FTS5 + Vektör Embeddings üzerinden hibrit arama. Dosyanın basitçe kopyalanmasıyla taşınabilir.

İşbirliği

Ajan Taşınabilirliği

AIMOS ajanları açık standartlar sayesinde taşınabilir, uyumlu ve birlikte çalışabilirdir.

OAP Dışa/İçe Aktarma

Açık Ajan Paketi formatı, bir ajanın bellek, yetenekler ve yapılandırma dahil tam olarak taşınabilir bir arşiv olarak dışa aktarılmasını sağlar.

agent_export.oap

config.yaml

memory.sqlite

skills/

prompts/

MCP Köprüsü (39 Araç)

Model Context Protocol, harici LLM'lerin (Claude, GPT, vb.) AIMOS yeteneklerine erişmesini sağlar. 39 araç MCP sunucusu olarak hazırdır.

sql_query file_read rest_call memory_search +35 mehr

A2A Ajan Kartları

Her ajan, Google A2A spesifikasyonuna göre bir Ajan Kartı (JSON-LD) yayınlar. Harici sistemler yetenekleri, giriş formatlarını ve güven seviyesini sorgulayabilir.

"name": "Konstruktions-Agent",

"skills": ["cad_read", "bom_gen"],

"trust_ring": 1

Teknik Öne Çıkanlar

AIMOS'u Farklı Kılan

Yerleşik Tool-Calling

Metin hileleri veya Regex ayrıştırma yok — AIMOS, LLM'in yerleşik Tool-Calling API'sini kullanır. Ajan eylemleri sadece açıklamak yerine sistemleri doğrudan yönetir.

Çok Dilli Ses

Tüm dillerde konuşma tanıma (Whisper STT) ve konuşma sentezi (Piper TTS) — ajanlar sesli mesajları anlar ve kullanıcının ana dilinde yanıt verir.

Token Takibi

Her LLM çağrısı kaydedilir: Giriş/Çıkış token'ları, gecikme, bağlam kullanımı. Ajan başına, konuşma başına, ay başına tam maliyet şeffaflığı.

Konuşma İş Parçacıkları

Her ajan hangi kanalda kiminle konuştuğunu bilir. Telegram, e-posta ve dahili mesajlar temiz bir şekilde ayrılır — konuşma ortakları arasında karışıklık olmaz.