Mimari — AIMOS

Zorluk

32 GB VRAM — bundan fazlasına gerek yok

Bulut tabanlı LLM'ler, özel sunucu kümelerinde devasa bağlam pencereleriyle çalışır. AIMOS, ofisinizde tek bir ekran kartı üzerinde çalışır — ve mimari araçlarla kurumsal görevler için yeterli olmakla kalmayıp, çoğu zaman aşırı boyutlu bulut modellerinden daha iyi sonuçlar üretir.

// Bağlam penceresi karşılaştırması (Token)

// VRAM neden darboğazdır

Doğru görev için doğru model

200 milyar parametreli ve 1 milyon token bağlamlı modeller etkileyicidir — ancak yapılandırılmış kurumsal görevler için çoğu zaman aşırı boyutludur. Öte yandan, dış müşteri iletişimi dahili veri sorgularından daha büyük bir model gerektirir. AIMOS göreve göre ölçeklenir.

14B — Starter

Basit vakalar, belge sınıflandırma, durum e-postaları. RTX 4060 Ti'de çalışır (16 GB, 400 €'dan). Multi-Pass Self-Refinement ile 27B kalitesinin ~%80'i.

27B — Business

Tam donanımlı YZ asistanı, FuSa Safety Manager, karmaşık analizler. Hassas araç çağrıları (~%86 BFCL), TurboQuant KV compression ile 33K bağlam. RTX 3090 (24 GB) veya RTX 5090'da Speculative Decoding ile (~7× daha hızlı).

Aynı Yazılım

Her iki model boyutu da aynı AIMOS platformunda çalışır. 27B'den 70B'ye yükseltme her zaman mümkündür — donanım değişikliğiyle, asistanları yeniden yapılandırmadan.

Ham işlem gücü yerine yedi mimari ilke

AIMOS, daha küçük bağlam penceresini daha büyük donanımla değil — asistanın mevcut görev için tam olarak ihtiyacı olanı bağlamda tutmasını sağlayan mimariyle telafi eder.

AIMOS bunu yedi mimari ilkeyle telafi eder; bu ilkeler bu sayfada ayrıntılı olarak açıklanmaktadır:

1 Uzun Süreli Bellek 2 Dreaming 3 Asistan Bölümleme 4 Budget Guard 5 Bağlam Enjeksiyonu 6 VRAM Paylaşımı 7 Eskalasyon

Mimari İlkeleri

Yerel YZ performansı için yedi ilke

Her ilke, yerel çalışmanın somut bir kısıtlamasını ele alır — birlikte tek bir GPU üzerinde kurumsal düzeyde performans sağlarlar.

Hibrit Uzun Süreli Bellek

Sınırlı bağlam Token'ları yerine sınırsız bilgi

Her asistanın iki arama mekanizmasına sahip kendi belleği vardır: FTS5 (tam metin arama) ve MiniLM-L6-v2 (384 boyutlu vektör gömülmeleri). Sonuçlar Reciprocal Rank Fusion ile birleştirilir — belirsiz arama terimlerinde bile ilgili anılar bulunur.

Asistan, 200.000 Token geçmiş saklamak yerine ilgili bilgileri hatırlar — ve doğru soruyla anında tekrar bulur. Saklanan anı sayısı sınırsızdır.

// Hibrit arama eylemde

FTS5: "Çelik profil tedarikçisi" → 12 sonuç

Vektör: "Kiriş kim tedarik ediyor?" → 8 sonuç

RRF: Birleştirme → İlk 20, alakaya göre sıralı

Depolandığı yer: SQLite (asistan başına)
Gömülme modeli: yerel, bulut çağrısı yok

Dreaming (Bellek Pekiştirme)

Bağlam dolmadan bilgiyi güvence altına al

Tetikleyici

Zamana bağlı değil, bağlam basıncı ile tetiklenir: Konuşma geçmişi eşiği aştığında (asistana göre 12/18/25 mesaj), Orchestrator bir Dreaming döngüsü başlatır.

Süreç

LLM geçmişi analiz eder ve bilgileri MEM: satırları olarak uzun süreli belleğe çıkarır. Aynı zamanda çalışma alanı dosyaları (notlar, yapılacaklar listesi) FILE: satırları üzerinden güncellenir.

Sonuç

Ardından geçmiş silinir — bilgi kaybı olmadan. Haftalık raporlar (Faz 5) ek olarak her 7 günde bir durumu özetler.

Asistan Bölümleme

Her şeyi bilen değil, uzmanlar

Tek bir asistanı devasa bir sistem istemiyle aşırı yüklemek yerine, AIMOS görevleri kısa, odaklanmış istemlerle birden fazla uzmana dağıtır. Her asistan, bağlam penceresinin yalnızca %17–22'sini sistem istemi için kullanır — geri kalanı bellek, konuşma ve yanıt için boş kalır.

%99

Tek asistan, 11K istem

Zaman aşımı, yer yok

%17

Uzman A, 1.5K istem

%83 çalışma için boş

%19

Uzman B, 2.8K istem

%81 çalışma için boş

Context Budget Guard

Her LLM çağrısından önce otomatik Token yönetimi

// Donanım seviyesine göre VRAM bütçesi (ölçekli)

KV-Cache (Key-Value Cache) = bir konuşma sırasında dil modelinin çalışma belleği. Sistem istemi, anılar, konuşma geçmişi ve yanıt için ayrılan tokenlar burada bulunur. KV-Cache için ne kadar fazla VRAM kalırsa, o kadar uzun ve derin konuşmalar mümkündür.

// Bağlam penceresi bileşimi (14.336 Token)

Geçmiş sınırı dinamik olarak uyarlanır: kısa istemli asistanlar (%17) en fazla 35 mesaj tutar, uzun istemli asistanlar ise yalnızca 15. Her LLM çağrısından önce Token toplamı kontrol edilir — bütçeyi aşarsa otomatik olarak kısaltılır. Asistan istemi ve araç tanımları her zaman eksiksiz korunur.

Yapılandırılmış Bağlam Enjeksiyonu

Minimum Token ile maksimum bilgi

Takvim, projeler ve kişileri serbest metin olarak bağlama koymak yerine, AIMOS bunları kompakt, yapılandırılmış bloklar olarak enjekte eder. LLM bu formatları minimum Token ile anlar ve anında tepki verebilir.

[OVERDUE] 2026-03-20 Teklif

[TODAY] 15:00 Toplantı

</calendar>

[OVERDUE] Statik → Müller

[BLOCKED] Çizim eksik

</projects>

Firma DATEV kullanıyor (imp=9)

Patronın adı Müller (imp=8)

</memories>

Sıralı VRAM İşletimi

Tüm asistanlar tek GPU, tek model paylaşır

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Yerel araç çağrısı desteğine sahip 32 milyar parametreli model. Daha küçük modeller (<20B) güvenilir araç yönetiminde başarısız olur — değerlendirmemizin üretim açısından kritik bir sonucu.

Orchestrator ve VRAM Guard

Orchestrator, veritabanı kuyruğundaki yeni mesajları algılar, ilgili asistanı başlatır ve aynı anda yalnızca bir asistanın GPU'yu kullanmasını sağlar. Kalp atışı izlemesi, takılan süreçleri (>60 sn) tespit eder ve bloke VRAM'i serbest bırakır.

SGLang ve RadixAttention

OpenAI uyumlu API uç noktasına sahip yüksek performanslı LLM çalışma zamanı. RadixAttention: önek önbelleği asistanlar arasında paylaşılır — asistan geçişi saniyeler yerine milisaniyeler içinde gerçekleşir.

Keep-Alive

Model 30 dakika boyunca VRAM'de kalır. Tüm asistanlar aynı modeli paylaşır — asistan değişiminde yükleme yapılmaz. Ancak 30 dakika hareketsizlik sonrasında VRAM serbest bırakılır.

// Bir LLM isteğinin anatomisi

Eskalasyon ve PII-Vault

Karmaşık görevlerde otomatik geri dönüş

Eskalasyon

Bir görev yerel 27B modelin yeteneklerini aşarsa — veya zaman aşımı oluşursa — asistan otomatik olarak daha güçlü bir bulut LLM'ye (ör. Claude Sonnet) yönlendirir. Kullanıcı fark etmez; her zaman bir yanıt alır.

PII-Vault (Anonimleştirme)

Eskalasyondan önce PII-Vault tüm kişisel verileri otomatik olarak anonimleştirir: adlar, telefon numaraları, e-posta adresleri, firma adları. Yalnızca temizlenmiş soru ağı terk eder. Yanıt yerel olarak yeniden kişiselleştirilir. Verileriniz her zaman yerelde kalır.

Teknik Mimari