A
AIMOS

Doğrulama

Bir yapay zeka ajanı
üretime nasıl hazır hale gelir?

Her insan hata yapar. Her LLM halüsinasyon üretir. Fark şudur: Biz bunun ne sıklıkta olduğunu ölçebilir — ve sistematik olarak belirlenen eşiğin altında kalmasını sağlayabiliriz.

Sorun: Yapay zeka ajanları halüsinasyon üretebilir

Vergi beyannamesi işleyen bir dil modeli tutarları uydurabilir. Bir güvenlik asistanı standart referanslarını halüsinasyon olarak üretebilir. Bir destek ajanı şirketin yerine getiremeyeceği vaatlerde bulunabilir.

Çoğu yapay zeka sağlayıcısı bu sorunu görmezden gelir — ya da „çoğu zaman işe yarar“ yaklaşımına güvenir. Biz öyle yapmıyoruz.

Tipik yapay zeka halüsinasyonları

  • Uydurma tutarlar („İade: 4.782 €“ — hiçbir yerde hesaplanmamış)
  • Yanlış standart referansları („§35a Fıkra 7 uyarınca“ — mevcut değil)
  • Karışan müşteri verileri (A müşterisinin verileri B müşterisine gönderilen e-postada)
  • Yanlış vaatler („Beyannamenizi gönderdim“)
  • Güncel olmayan bilgiler (2025 yerine 2021 kesintisi)

Çözümümüz: Sistematik Doğrulama

Otonom araçlar (ADAS) ve fonksiyonel güvenlik metodolojisinden türetilmiştir. Kurumsal ortamlardaki yapay zeka ajanları için uyarlanmıştır.

// Doğrulama-V — spesifikasyondan istatistiksel kanıta
ISO/TS 5083 Cl. 6.2
1. Kabul Kriterleri

İş senaryosu → maks. hata oranı.
Örn.: yılda 7.500 işlemde <%0,15.

ISO/PAS 8800 Cl. 9
2. Ajan Tasarımı

Prompt mühendisliği + referans bilgisi.
Uzmanlık dosyalarda, LLM belleğinde değil.

ISO 26262 / SOTIF
3. Güvenlik Önlemleri

Halüsinasyon tespiti.
Deterministik + semantik doğrulama.

Yapay Zeka Ajanı

OODA Döngüsü
TurboQuant
Qwen 27B

İteratif kontrol döngüsü:
Hata → Prompt düzeltme → Yeniden test

ISO/TS 5083 Cl. 9
6. İşletim İzlemesi

Her işlem otomatik olarak puanlanır.
Çeyreklik hata oranı.

ISO/TS 5083 H.4
5. Monte Carlo Doğrulaması

2.000 sentetik senaryo.
Güven aralığı ile istatistiksel kanıt.

ISO 21448 (SOTIF)
4. Faz Testleri (SOTIF/FuSi)

OODA fazı başına izole testler.
Eşdeğerlik Sınıfları + Sınır Değerleri.

Güvenilirliğin arkasındaki emek

2.000+
Sentetik test senaryosu
Ajanın parametre uzayından
otomatik olarak üretilir
10.000+
Yapay zeka destekli kontrol
Her senaryo 15 otomatik
kontrol ile değerlendirilir
Günler
Ajan başına doğrulama süresi
İstatistiksel kanıta ulaşıncaya kadar
çok günlük GPU döngüleri

Her ajan için GPU altyapımızda binlerce test senaryosu ile çok günlük doğrulama döngüleri çalıştırılır. Her bir test senaryosu yapay zeka destekli olarak değerlendirilir — sayılar ve olgular için deterministik, üslup ve bağlam için semantik. Ancak ölçülen hata oranı üzerinde anlaşılan kabul kriterinin altına düştüğünde ajan üretime alınır. Bu emeği her bir ajan için harcıyoruz.

Halüsinasyon tespiti: İki katman

Katman 1: Deterministik

Python kodu, LLM yok. %100 güvenilir, <1 saniye.

  • ✓ Çıktıdaki her EUR tutarı giriş verilerine karşı doğrulanır
  • ✓ E-postalarda araç çağrısı kalıntısı yok (XML, JSON)
  • ✓ Müşteri verisi karışması yok (kapsam kontrolü)
  • ✓ Dahili sistem terimleri dışarıya sızmıyor
  • ✓ Prompt enjeksiyon direnci

Katman 2: Semantik (LLM tabanlı)

Ayrı LLM çağrısı, düşük sıcaklık. Altın standarda karşı kalibre edilmiş.

  • ✓ Profesyonel üslup (zor müşterilerde bile)
  • ✓ İçerik tutarlılığı (veri olmadan iade yok)
  • ✓ Tamlık (eksik belgeler belirtilir)
  • ✓ Yanlış vaatlerde bulunmama
  • ✓ Doğru dil (müşteriye göre TR/EN)

Kalibrasyon: Her kontrol promptu, elle hazırlanmış altın taslaklara (bilinen iyi + bilinen kötü) karşı kalibre edilir. Kesinlik, duyarlılık ve F1 skoru ölçülür. Yalnızca F1 > 0,9 olan kontroller kullanılır. Kalibrasyon metodolojimizin detayları özel mülkiyetimizdir.

Üretimde araştırma

TurboQuant

KV-Cache sıkıştırması 3 bit’e (ICLR 2026). Aynı GPU’da 6 kat daha fazla bağlam. Sıfır doğruluk kaybı.

Speculative Decoding

Küçük taslak model üretir, büyük model doğrular. Aynı kalitede 2,5 kat daha hızlı çıkarım.

Claim Decomposition

Ajanın her ifadesi atomik iddialara ayrıştırılır ve kaynak verilere karşı doğrulanır. FActScore ve Chain-of-Verification (Meta 2023) temellidir.

Referans standartlar

Metodolojimiz, otonom sürüş ve ADAS sistemleri için geliştirilen standartlara dayanmaktadır. Bu metodolojiyi kurumsal ortamlardaki yapay zeka ajanlarına sistematik olarak uygulayan ilk şirketiz.

ISO/TS 5083:2025 — Safety for Automated Driving Systems: Design, Verification and Validation

Kabul kriterleri, Monte Carlo, senaryo üretimi, doğrulama süreci

ISO/PAS 8800:2024 — Road Vehicles: Safety and Artificial Intelligence

YZ güvenlik gereksinimleri, giriş uzayı iyileştirmesi, çıktı yetersizlikleri

ISO 21448 (SOTIF) — Safety of the Intended Functionality

Amaçlanan işlevselliğin doğrulanması, artık risk, tetikleyici koşullar

ISO 26262 / Automotive SPICE — Fonksiyonel güvenlik + süreç kalitesi

HAZOP, FMEA, deterministik güvenlik önlemleri, süreç olgunluğu

Detaylarla ilgileniyor musunuz?

Kapsamlı doğrulama metodolojisi danışmanlık hizmetimizin bir parçasıdır. Yapay zeka ajanınızı güvenle kullanabileceğiniz şekilde nasıl yapılandırdığımızı size kişisel bir görüşmede memnuniyetle gösteririz.

İletişime geçin