Doğrulama
Her insan hata yapar. Her LLM halüsinasyon üretir. Fark şudur: Biz bunun ne sıklıkta olduğunu ölçebilir — ve sistematik olarak belirlenen eşiğin altında kalmasını sağlayabiliriz.
Vergi beyannamesi işleyen bir dil modeli tutarları uydurabilir. Bir güvenlik asistanı standart referanslarını halüsinasyon olarak üretebilir. Bir destek ajanı şirketin yerine getiremeyeceği vaatlerde bulunabilir.
Çoğu yapay zeka sağlayıcısı bu sorunu görmezden gelir — ya da „çoğu zaman işe yarar“ yaklaşımına güvenir. Biz öyle yapmıyoruz.
Otonom araçlar (ADAS) ve fonksiyonel güvenlik metodolojisinden türetilmiştir. Kurumsal ortamlardaki yapay zeka ajanları için uyarlanmıştır.
İş senaryosu → maks. hata oranı.
Örn.: yılda 7.500 işlemde <%0,15.
Prompt mühendisliği + referans bilgisi.
Uzmanlık dosyalarda, LLM belleğinde değil.
Halüsinasyon tespiti.
Deterministik + semantik doğrulama.
OODA Döngüsü
TurboQuant
Qwen 27B
İteratif kontrol döngüsü:
Hata → Prompt düzeltme → Yeniden test
Her işlem otomatik olarak puanlanır.
Çeyreklik hata oranı.
2.000 sentetik senaryo.
Güven aralığı ile istatistiksel kanıt.
OODA fazı başına izole testler.
Eşdeğerlik Sınıfları + Sınır Değerleri.
Her ajan için GPU altyapımızda binlerce test senaryosu ile çok günlük doğrulama döngüleri çalıştırılır. Her bir test senaryosu yapay zeka destekli olarak değerlendirilir — sayılar ve olgular için deterministik, üslup ve bağlam için semantik. Ancak ölçülen hata oranı üzerinde anlaşılan kabul kriterinin altına düştüğünde ajan üretime alınır. Bu emeği her bir ajan için harcıyoruz.
Python kodu, LLM yok. %100 güvenilir, <1 saniye.
Ayrı LLM çağrısı, düşük sıcaklık. Altın standarda karşı kalibre edilmiş.
Kalibrasyon: Her kontrol promptu, elle hazırlanmış altın taslaklara (bilinen iyi + bilinen kötü) karşı kalibre edilir. Kesinlik, duyarlılık ve F1 skoru ölçülür. Yalnızca F1 > 0,9 olan kontroller kullanılır. Kalibrasyon metodolojimizin detayları özel mülkiyetimizdir.
KV-Cache sıkıştırması 3 bit’e (ICLR 2026). Aynı GPU’da 6 kat daha fazla bağlam. Sıfır doğruluk kaybı.
Küçük taslak model üretir, büyük model doğrular. Aynı kalitede 2,5 kat daha hızlı çıkarım.
Ajanın her ifadesi atomik iddialara ayrıştırılır ve kaynak verilere karşı doğrulanır. FActScore ve Chain-of-Verification (Meta 2023) temellidir.
Metodolojimiz, otonom sürüş ve ADAS sistemleri için geliştirilen standartlara dayanmaktadır. Bu metodolojiyi kurumsal ortamlardaki yapay zeka ajanlarına sistematik olarak uygulayan ilk şirketiz.
Kabul kriterleri, Monte Carlo, senaryo üretimi, doğrulama süreci
YZ güvenlik gereksinimleri, giriş uzayı iyileştirmesi, çıktı yetersizlikleri
Amaçlanan işlevselliğin doğrulanması, artık risk, tetikleyici koşullar
HAZOP, FMEA, deterministik güvenlik önlemleri, süreç olgunluğu
Kapsamlı doğrulama metodolojisi danışmanlık hizmetimizin bir parçasıdır. Yapay zeka ajanınızı güvenle kullanabileceğiniz şekilde nasıl yapılandırdığımızı size kişisel bir görüşmede memnuniyetle gösteririz.
İletişime geçin