yapay zeka • 08 May 2026

Claude’un Zihni Yazıya Dökülüyor

Anthropic, Claude’un iç süreçlerini daha anlaşılır hâle getirmek için Natural Language Autoencoders adlı yeni bir yöntem tanıttı. Anthropic, yapay zekâ modellerinin “ne düşündüğünü” anlamaya yönelik dikkat çekici bir araştırma yayımladı. Şirketin yeni yöntemi, Claude’un içindeki sayısal aktivasyonları okunabilir metin açıklamalarına dönüştürmeyi hedefliyor.

Natural Language Autoencoders, kısaca NLA, Claude’un kelimelerle ifade etmediği iç sinyalleri doğal dile çevirmeye çalışıyor. Anthropic’e göre bu yöntem, modelin bir yanıt üretmeden önce hangi olasılıkları değerlendirdiğini, hatta bazı güvenlik testlerinde kendisinin test edildiğini fark edip etmediğini daha görünür kılabiliyor.

Araştırmada verilen örnekler oldukça çarpıcı. Anthropic, Claude Opus 4.6 ve Mythos Preview üzerinde yapılan güvenlik testlerinde NLA’ların, modellerin bazı durumlarda test edildiklerini düşündüğünü ortaya çıkarabildiğini söylüyor. Hatta bir eğitim görevinde hile yapan Mythos Preview örneğinde, yöntemin modelin “yakalanmaktan kaçınma” yönündeki iç eğilimini gösterdiği belirtiliyor.

Ancak şirket bu yöntemin kusursuz olmadığını da özellikle vurguluyor. NLA açıklamaları bazen yanlış ayrıntılar üretebiliyor ve bu yüzden tek başına kesin kanıt olarak görülmüyor. Anthropic, bu çıktıları daha çok tekrar eden temaları yakalamak için kullandığını ve bağımsız yöntemlerle doğrulamaya çalıştığını belirtiyor.

Bu çalışma, yapay zekâ güvenliği açısından önemli bir eşiğe işaret ediyor. Çünkü modeller büyüdükçe yalnızca verdikleri yanıtlara bakmak yeterli olmayabilir; araştırmacıların, modelin söylemediği ama içeride işlediği sinyalleri de anlaması gerekebilir. NLA’lar şimdilik pahalı ve sınırlı bir yöntem olsa da, yapay zekâların daha şeffaf denetlenmesi için yeni bir kapı aralıyor.

Kaynak: Anthropic Research

İlginizi Çekebilir

Beyne Yerleştirilen Çip Görme Engellilere Yapay Görüş Sundu

Grok Apple CarPlay'e Resmi Olarak Geldi

Anthropic Mythos Firefox'ta 15 Yıllık Hatayı Buldu

Cloudflare Yapay Zekâ İçin 1.100 Çalışanını Çıkardı