Teknik Dokümantasyon

Teknik Mimari

Zorluktan LLM çağrısına kadar — AIMOS'un mimari ilkeleri.

Zorluk

32 GB VRAM — bundan fazlasına gerek yok

Bulut tabanlı LLM'ler, özel sunucu kümelerinde devasa bağlam pencereleriyle çalışır. AIMOS, ofisinizde tek bir ekran kartı üzerinde çalışır — ve mimari araçlarla kurumsal görevler için yeterli olmakla kalmayıp, çoğu zaman aşırı boyutlu bulut modellerinden daha iyi sonuçlar üretir.

// Bağlam penceresi karşılaştırması (Token)
250K 500K 750K 1.000K Gemini 2.5 1.000.000 Bulut • $$$ Claude 4 200.000 Bulut • $$ GPT-4o 128.000 Bulut • $$ AIMOS — Local, Your GPU, Your Data — TurboQuant KV Compression (ICLR 2026) Starter 20K — RTX 4060 Ti 16 GB, Qwen 14B Business 33K — RTX 3090 24 GB, Qwen 27B Business+ 52K — RTX 5090 32 GB + Speculative Decoding + SGLang Professional 100K+ — 2× RTX 3090 NVLink 48 GB / A100 80 GB TurboQuant: 3-Bit KV → 6× more context Smaller context window than cloud — but: TurboQuant + Architecture compensate for this. And: your data stays with you.
// VRAM neden darboğazdır
NVIDIA RTX 3090 — 24 GB VRAM + TurboQuant Model Ağırlıkları Qwen 3.5:27B (Q4) — ~17 GB sabit kullanım KV-Cache Bağlam için ~10 GB Yedek ~2 GB %62 Model %31 Bağlam %7 Tampon TurboQuant avantajı: 8 GB daha fazla VRAM = RTX 4090'a göre neredeyse üç kat daha fazla bağlam alanı. AIMOS bu alanı daha fazla bellek, daha uzun konuşmalar ve daha büyük bağlam pencereleri için kullanır — aynı maliyetle.

Doğru görev için doğru model

200 milyar parametreli ve 1 milyon token bağlamlı modeller etkileyicidir — ancak yapılandırılmış kurumsal görevler için çoğu zaman aşırı boyutludur. Öte yandan, dış müşteri iletişimi dahili veri sorgularından daha büyük bir model gerektirir. AIMOS göreve göre ölçeklenir.

14B — Starter

Basit vakalar, belge sınıflandırma, durum e-postaları. RTX 4060 Ti'de çalışır (16 GB, 400 €'dan). Multi-Pass Self-Refinement ile 27B kalitesinin ~%80'i.

27B — Business

Tam donanımlı YZ asistanı, FuSa Safety Manager, karmaşık analizler. Hassas araç çağrıları (~%86 BFCL), TurboQuant KV compression ile 33K bağlam. RTX 3090 (24 GB) veya RTX 5090'da Speculative Decoding ile (~7× daha hızlı).

Aynı Yazılım

Her iki model boyutu da aynı AIMOS platformunda çalışır. 27B'den 70B'ye yükseltme her zaman mümkündür — donanım değişikliğiyle, asistanları yeniden yapılandırmadan.

Ham işlem gücü yerine yedi mimari ilke

AIMOS, daha küçük bağlam penceresini daha büyük donanımla değil — asistanın mevcut görev için tam olarak ihtiyacı olanı bağlamda tutmasını sağlayan mimariyle telafi eder.

AIMOS bunu yedi mimari ilkeyle telafi eder; bu ilkeler bu sayfada ayrıntılı olarak açıklanmaktadır:

Veri Akışı

Sisteme Genel Bakış

Mesajlar farklı kanallardan gelir, merkezi olarak dağıtılır ve uygun asistan tarafından ortak bir GPU üzerinde işlenir.

GİRİŞLER Telegram E-posta Ses Gösterge Paneli Ortak Dinleyici tüm kanalları alır PostgreSQL Mesaj Kuyruğu Orchestrator VRAM Guard • Süreç Yöneticisi Finans Asistanı Bellek • DATEV • ETA Yapı Asistanı Bellek • FEM • DXF Lojistik Asistanı Bellek • SAP • REST Sizin Asistanınız Bellek • Sizin Becerileriniz GPU — Yerel LLM Çıkarımı Qwen 3.5:27B • RTX 3090 • 24 GB + TurboQuant sıralı Mesajları topla ara bellekte tut dağıt Asistanlar Veritabanı Orchestrator GPU / LLM

Mimari İlkeleri

Yerel YZ performansı için yedi ilke

Her ilke, yerel çalışmanın somut bir kısıtlamasını ele alır — birlikte tek bir GPU üzerinde kurumsal düzeyde performans sağlarlar.

1

Hibrit Uzun Süreli Bellek

Sınırlı bağlam Token'ları yerine sınırsız bilgi

Her asistanın iki arama mekanizmasına sahip kendi belleği vardır: FTS5 (tam metin arama) ve MiniLM-L6-v2 (384 boyutlu vektör gömülmeleri). Sonuçlar Reciprocal Rank Fusion ile birleştirilir — belirsiz arama terimlerinde bile ilgili anılar bulunur.

Asistan, 200.000 Token geçmiş saklamak yerine ilgili bilgileri hatırlar — ve doğru soruyla anında tekrar bulur. Saklanan anı sayısı sınırsızdır.

// Hibrit arama eylemde
FTS5:  "Çelik profil tedarikçisi" → 12 sonuç
Vektör: "Kiriş kim tedarik ediyor?" → 8 sonuç
RRF:   Birleştirme → İlk 20, alakaya göre sıralı
Depolandığı yer: SQLite (asistan başına)
Gömülme modeli: yerel, bulut çağrısı yok
2

Dreaming (Bellek Pekiştirme)

Bağlam dolmadan bilgiyi güvence altına al

Tetikleyici

Zamana bağlı değil, bağlam basıncı ile tetiklenir: Konuşma geçmişi eşiği aştığında (asistana göre 12/18/25 mesaj), Orchestrator bir Dreaming döngüsü başlatır.

Süreç

LLM geçmişi analiz eder ve bilgileri MEM: satırları olarak uzun süreli belleğe çıkarır. Aynı zamanda çalışma alanı dosyaları (notlar, yapılacaklar listesi) FILE: satırları üzerinden güncellenir.

Sonuç

Ardından geçmiş silinir — bilgi kaybı olmadan. Haftalık raporlar (Faz 5) ek olarak her 7 günde bir durumu özetler.

3

Asistan Bölümleme

Her şeyi bilen değil, uzmanlar

Tek bir asistanı devasa bir sistem istemiyle aşırı yüklemek yerine, AIMOS görevleri kısa, odaklanmış istemlerle birden fazla uzmana dağıtır. Her asistan, bağlam penceresinin yalnızca %17–22'sini sistem istemi için kullanır — geri kalanı bellek, konuşma ve yanıt için boş kalır.

%99
Tek asistan, 11K istem
Zaman aşımı, yer yok
%17
Uzman A, 1.5K istem
%83 çalışma için boş
%19
Uzman B, 2.8K istem
%81 çalışma için boş
4

Context Budget Guard

Her LLM çağrısından önce otomatik Token yönetimi

// Donanım seviyesine göre VRAM bütçesi (ölçekli)
Starter RTX 4090 14B — 9 GB 13 GB ~26K Tok Business RTX 3090 32B — 19 GB 11 GB ~22K Tok Professional 2× 3090 NVLink 70B — 40 GB 22 GB ~24K Tok Model ağırlıkları (sabit) KV-Cache (bağlam) Rezerv Aynı yazılım, farklı kapasite. Starter: hızlı & verimli. Business: daha hassas. Professional: maksimum kalite.

KV-Cache (Key-Value Cache) = bir konuşma sırasında dil modelinin çalışma belleği. Sistem istemi, anılar, konuşma geçmişi ve yanıt için ayrılan tokenlar burada bulunur. KV-Cache için ne kadar fazla VRAM kalırsa, o kadar uzun ve derin konuşmalar mümkündür.

// Bağlam penceresi bileşimi (14.336 Token)
Temel İstem ~2.000 Asistan ~400-700 Araçlar ~400-600 Anılar ~500-1.500 Takvim Projeler Konuşma Geçmişi dinamik (15-35 mesaj) Yanıt ~2.000 ayrılmış Asistan başına sabit (%17-22) Dinamik (Bellek + Konuşma + Yanıt) ! Bütçe aşıldı mı? En eski mesajları kaldır • Araç sonuçlarını 200 karaktere kısalt • İstem + Araçlar eksiksiz kalır

Geçmiş sınırı dinamik olarak uyarlanır: kısa istemli asistanlar (%17) en fazla 35 mesaj tutar, uzun istemli asistanlar ise yalnızca 15. Her LLM çağrısından önce Token toplamı kontrol edilir — bütçeyi aşarsa otomatik olarak kısaltılır. Asistan istemi ve araç tanımları her zaman eksiksiz korunur.

5

Yapılandırılmış Bağlam Enjeksiyonu

Minimum Token ile maksimum bilgi

Takvim, projeler ve kişileri serbest metin olarak bağlama koymak yerine, AIMOS bunları kompakt, yapılandırılmış bloklar olarak enjekte eder. LLM bu formatları minimum Token ile anlar ve anında tepki verebilir.

<calendar>
[OVERDUE] 2026-03-20 Teklif
[TODAY] 15:00 Toplantı
</calendar>
<projects>
[OVERDUE] Statik → Müller
[BLOCKED] Çizim eksik
</projects>
<memories>
Firma DATEV kullanıyor (imp=9)
Patronın adı Müller (imp=8)
</memories>
6

Sıralı VRAM İşletimi

Tüm asistanlar tek GPU, tek model paylaşır

Qwen 3.5:27B (Q4, ~17 GB VRAM)

Yerel araç çağrısı desteğine sahip 32 milyar parametreli model. Daha küçük modeller (<20B) güvenilir araç yönetiminde başarısız olur — değerlendirmemizin üretim açısından kritik bir sonucu.

Orchestrator ve VRAM Guard

Orchestrator, veritabanı kuyruğundaki yeni mesajları algılar, ilgili asistanı başlatır ve aynı anda yalnızca bir asistanın GPU'yu kullanmasını sağlar. Kalp atışı izlemesi, takılan süreçleri (>60 sn) tespit eder ve bloke VRAM'i serbest bırakır.

SGLang ve RadixAttention

OpenAI uyumlu API uç noktasına sahip yüksek performanslı LLM çalışma zamanı. RadixAttention: önek önbelleği asistanlar arasında paylaşılır — asistan geçişi saniyeler yerine milisaniyeler içinde gerçekleşir.

Keep-Alive

Model 30 dakika boyunca VRAM'de kalır. Tüm asistanlar aynı modeli paylaşır — asistan değişiminde yükleme yapılmaz. Ancak 30 dakika hareketsizlik sonrasında VRAM serbest bırakılır.

// Bir LLM isteğinin anatomisi
Sistem İstemi + Bellek Bağlamı Budget Guard Token Kontrolü LLM Çıkarım SGLang API Araç Yönlendirme Halka Kontrolü Denetim Kaydı + Yanıt Token Takibi
7

Eskalasyon ve PII-Vault

Karmaşık görevlerde otomatik geri dönüş

Eskalasyon

Bir görev yerel 27B modelin yeteneklerini aşarsa — veya zaman aşımı oluşursa — asistan otomatik olarak daha güçlü bir bulut LLM'ye (ör. Claude Sonnet) yönlendirir. Kullanıcı fark etmez; her zaman bir yanıt alır.

PII-Vault (Anonimleştirme)

Eskalasyondan önce PII-Vault tüm kişisel verileri otomatik olarak anonimleştirir: adlar, telefon numaraları, e-posta adresleri, firma adları. Yalnızca temizlenmiş soru ağı terk eder. Yanıt yerel olarak yeniden kişiselleştirilir. Verileriniz her zaman yerelde kalır.