Teknik Dokümantasyon
Zorluktan LLM çağrısına kadar — AIMOS'un mimari ilkeleri.
Zorluk
Bulut tabanlı LLM'ler, özel sunucu kümelerinde devasa bağlam pencereleriyle çalışır. AIMOS, ofisinizde tek bir ekran kartı üzerinde çalışır — ve mimari araçlarla kurumsal görevler için yeterli olmakla kalmayıp, çoğu zaman aşırı boyutlu bulut modellerinden daha iyi sonuçlar üretir.
200 milyar parametreli ve 1 milyon token bağlamlı modeller etkileyicidir — ancak yapılandırılmış kurumsal görevler için çoğu zaman aşırı boyutludur. Öte yandan, dış müşteri iletişimi dahili veri sorgularından daha büyük bir model gerektirir. AIMOS göreve göre ölçeklenir.
Basit vakalar, belge sınıflandırma, durum e-postaları. RTX 4060 Ti'de çalışır (16 GB, 400 €'dan). Multi-Pass Self-Refinement ile 27B kalitesinin ~%80'i.
Tam donanımlı YZ asistanı, FuSa Safety Manager, karmaşık analizler. Hassas araç çağrıları (~%86 BFCL), TurboQuant KV compression ile 33K bağlam. RTX 3090 (24 GB) veya RTX 5090'da Speculative Decoding ile (~7× daha hızlı).
Her iki model boyutu da aynı AIMOS platformunda çalışır. 27B'den 70B'ye yükseltme her zaman mümkündür — donanım değişikliğiyle, asistanları yeniden yapılandırmadan.
AIMOS, daha küçük bağlam penceresini daha büyük donanımla değil — asistanın mevcut görev için tam olarak ihtiyacı olanı bağlamda tutmasını sağlayan mimariyle telafi eder.
AIMOS bunu yedi mimari ilkeyle telafi eder; bu ilkeler bu sayfada ayrıntılı olarak açıklanmaktadır:
Veri Akışı
Mesajlar farklı kanallardan gelir, merkezi olarak dağıtılır ve uygun asistan tarafından ortak bir GPU üzerinde işlenir.
Mimari İlkeleri
Her ilke, yerel çalışmanın somut bir kısıtlamasını ele alır — birlikte tek bir GPU üzerinde kurumsal düzeyde performans sağlarlar.
Sınırlı bağlam Token'ları yerine sınırsız bilgi
Her asistanın iki arama mekanizmasına sahip kendi belleği vardır: FTS5 (tam metin arama) ve MiniLM-L6-v2 (384 boyutlu vektör gömülmeleri). Sonuçlar Reciprocal Rank Fusion ile birleştirilir — belirsiz arama terimlerinde bile ilgili anılar bulunur.
Asistan, 200.000 Token geçmiş saklamak yerine ilgili bilgileri hatırlar — ve doğru soruyla anında tekrar bulur. Saklanan anı sayısı sınırsızdır.
Bağlam dolmadan bilgiyi güvence altına al
Zamana bağlı değil, bağlam basıncı ile tetiklenir: Konuşma geçmişi eşiği aştığında (asistana göre 12/18/25 mesaj), Orchestrator bir Dreaming döngüsü başlatır.
LLM geçmişi analiz eder ve bilgileri MEM: satırları olarak uzun süreli belleğe çıkarır. Aynı zamanda çalışma alanı dosyaları (notlar, yapılacaklar listesi) FILE: satırları üzerinden güncellenir.
Ardından geçmiş silinir — bilgi kaybı olmadan. Haftalık raporlar (Faz 5) ek olarak her 7 günde bir durumu özetler.
Her şeyi bilen değil, uzmanlar
Tek bir asistanı devasa bir sistem istemiyle aşırı yüklemek yerine, AIMOS görevleri kısa, odaklanmış istemlerle birden fazla uzmana dağıtır. Her asistan, bağlam penceresinin yalnızca %17–22'sini sistem istemi için kullanır — geri kalanı bellek, konuşma ve yanıt için boş kalır.
Her LLM çağrısından önce otomatik Token yönetimi
KV-Cache (Key-Value Cache) = bir konuşma sırasında dil modelinin çalışma belleği. Sistem istemi, anılar, konuşma geçmişi ve yanıt için ayrılan tokenlar burada bulunur. KV-Cache için ne kadar fazla VRAM kalırsa, o kadar uzun ve derin konuşmalar mümkündür.
Geçmiş sınırı dinamik olarak uyarlanır: kısa istemli asistanlar (%17) en fazla 35 mesaj tutar, uzun istemli asistanlar ise yalnızca 15. Her LLM çağrısından önce Token toplamı kontrol edilir — bütçeyi aşarsa otomatik olarak kısaltılır. Asistan istemi ve araç tanımları her zaman eksiksiz korunur.
Minimum Token ile maksimum bilgi
Takvim, projeler ve kişileri serbest metin olarak bağlama koymak yerine, AIMOS bunları kompakt, yapılandırılmış bloklar olarak enjekte eder. LLM bu formatları minimum Token ile anlar ve anında tepki verebilir.
Tüm asistanlar tek GPU, tek model paylaşır
Yerel araç çağrısı desteğine sahip 32 milyar parametreli model. Daha küçük modeller (<20B) güvenilir araç yönetiminde başarısız olur — değerlendirmemizin üretim açısından kritik bir sonucu.
Orchestrator, veritabanı kuyruğundaki yeni mesajları algılar, ilgili asistanı başlatır ve aynı anda yalnızca bir asistanın GPU'yu kullanmasını sağlar. Kalp atışı izlemesi, takılan süreçleri (>60 sn) tespit eder ve bloke VRAM'i serbest bırakır.
OpenAI uyumlu API uç noktasına sahip yüksek performanslı LLM çalışma zamanı. RadixAttention: önek önbelleği asistanlar arasında paylaşılır — asistan geçişi saniyeler yerine milisaniyeler içinde gerçekleşir.
Model 30 dakika boyunca VRAM'de kalır. Tüm asistanlar aynı modeli paylaşır — asistan değişiminde yükleme yapılmaz. Ancak 30 dakika hareketsizlik sonrasında VRAM serbest bırakılır.
Karmaşık görevlerde otomatik geri dönüş
Bir görev yerel 27B modelin yeteneklerini aşarsa — veya zaman aşımı oluşursa — asistan otomatik olarak daha güçlü bir bulut LLM'ye (ör. Claude Sonnet) yönlendirir. Kullanıcı fark etmez; her zaman bir yanıt alır.
Eskalasyondan önce PII-Vault tüm kişisel verileri otomatik olarak anonimleştirir: adlar, telefon numaraları, e-posta adresleri, firma adları. Yalnızca temizlenmiş soru ağı terk eder. Yanıt yerel olarak yeniden kişiselleştirilir. Verileriniz her zaman yerelde kalır.