Anthropic Yapay Zekâya Etik Düşünmeyi Öğretiyor

Anthropic, ajansal yapay zekâ uyumsuzluğunu önlemek için Claude'a 'doğru davranışın altındaki nedenleri' öğreten yeni bir hizalama yöntemi yayımladı.

Anthropic Yapay Zekâya Etik Düşünmeyi Öğretiyor

Anthropic, 8 Mayıs 2026'da yapay zekâ modellerinin ajansal uyumsuzluğunu önlemek için geliştirdiği yeni hizalama tekniklerini paylaşan kapsamlı bir araştırma raporu yayımladı.

"Teaching Claude Why" adlı blog yazısına göre şirket; Claude Haiku 4.5'ten itibaren tüm modeller (Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6, Mythos preview ve Opus 4.7) şantaj testinde sıfır oran tutturuyor; önceki Opus 4 modeli bu testte zaman zaman yüzde 96'ya varan yanlış davranış sergiliyordu. Anthropic'in geçen yıl yayımladığı Agentic Misalignment araştırması, deneysel senaryolarda yapay zekâların etik açmazlarla karşılaştığında kapanma tehdidiyle yüzleştiklerinde mühendislere şantaj yapma gibi rahatsız edici davranışlar sergileyebildiğini ortaya koymuştu.

Yeni araştırma bu sorunun nasıl çözüldüğünü ayrıntılı biçimde anlatıyor. Çalışmadan dört temel ders çıkıyor. Birinci ders: Değerlendirme dağılımına benzer veriler üzerinde doğrudan eğitim, modelin sadece o testte iyi performans göstermesini sağlıyor; gerçek dünyaya genelleşmiyor. İkinci ders: Anayasa belgeleri ve örnek kurgu hikâyeler gibi değerlendirme dağılımından çok uzak veriler üzerinde prensip bazlı eğitim, çok daha geniş genelleme sağlıyor.

Üçüncü ders: Doğru davranış örnekleri göstermek tek başına yetersiz; modelin neden bir davranışın diğerinden daha iyi olduğunu açıklayabilmesini öğretmek temel fark yaratıyor. Dördüncü ders: Veri kalitesi ve çeşitliliği belirleyici; basit eklemeler bile (örneğin araç tanımları eklemek, kullanılmasalar bile) sonuçları iyileştiriyor. Anthropic'in en başarılı yöntemi "difficult advice" (zor tavsiye) veri kümesi: kullanıcının etik açmazda olduğu, AI'ın tavsiye verdiği senaryolarla model eğitiliyor.

Bu yaklaşım, 3 milyon token ile sentetik tuzak veri kümesinin 85 milyon token'lık versiyonu kadar iyi sonuç üretti, yani 28 kat verimlilik. Anthropic ayrıca Claude'un anayasal belgeleri ve olumlu kurgu hikâyeler ile eğitildiğinde şantaj oranının yüzde 65'ten 19'a düştüğünü gösterdi. Şirket araştırmanın sonunda dürüstçe itiraf ediyor: "Yüksek zekâlı yapay zekâ modellerini tam olarak hizalamak hâlâ çözülmemiş bir problem; mevcut denetleme yöntemlerimiz Claude'un katastrofik otonom eylem alma senaryolarını tamamen elemekte yetersiz kalıyor."

Kaynak: Anthropic