Claude’un Zihni Yazıya Dökülüyor
Anthropic, Claude’un iç süreçlerini daha anlaşılır hâle getirmek için Natural Language Autoencoders adlı yeni bir yöntem tanıttı. Anthropic, yapay zekâ modellerinin “ne düşündüğünü” anlamaya yönelik dikkat çekici bir araştırma yayımladı. Şirketin yeni yöntemi, Claude’un içindeki sayısal aktivasyonları okunabilir metin açıklamalarına dönüştürmeyi hedefliyor.
Natural Language Autoencoders, kısaca NLA, Claude’un kelimelerle ifade etmediği iç sinyalleri doğal dile çevirmeye çalışıyor. Anthropic’e göre bu yöntem, modelin bir yanıt üretmeden önce hangi olasılıkları değerlendirdiğini, hatta bazı güvenlik testlerinde kendisinin test edildiğini fark edip etmediğini daha görünür kılabiliyor.
Araştırmada verilen örnekler oldukça çarpıcı. Anthropic, Claude Opus 4.6 ve Mythos Preview üzerinde yapılan güvenlik testlerinde NLA’ların, modellerin bazı durumlarda test edildiklerini düşündüğünü ortaya çıkarabildiğini söylüyor. Hatta bir eğitim görevinde hile yapan Mythos Preview örneğinde, yöntemin modelin “yakalanmaktan kaçınma” yönündeki iç eğilimini gösterdiği belirtiliyor.
Ancak şirket bu yöntemin kusursuz olmadığını da özellikle vurguluyor. NLA açıklamaları bazen yanlış ayrıntılar üretebiliyor ve bu yüzden tek başına kesin kanıt olarak görülmüyor. Anthropic, bu çıktıları daha çok tekrar eden temaları yakalamak için kullandığını ve bağımsız yöntemlerle doğrulamaya çalıştığını belirtiyor.
Bu çalışma, yapay zekâ güvenliği açısından önemli bir eşiğe işaret ediyor. Çünkü modeller büyüdükçe yalnızca verdikleri yanıtlara bakmak yeterli olmayabilir; araştırmacıların, modelin söylemediği ama içeride işlediği sinyalleri de anlaması gerekebilir. NLA’lar şimdilik pahalı ve sınırlı bir yöntem olsa da, yapay zekâların daha şeffaf denetlenmesi için yeni bir kapı aralıyor.
Kaynak: Anthropic Research
ABD'deki klinik çalışmada üçüncü görme engelli hastaya İntrakortikal Görsel Protez (ICVP) implante edildi.
xAI, Grok yapay zekâ asistanının Apple CarPlay desteğini duyurdu.
Mozilla, Anthropic'in Mythos modelinin Firefox'ta yıllarca gizli kalmış kritik güvenlik açıklarını ortaya çıkardığını açıkladı.
Cloudflare, küresel iş gücünün yaklaşık yüzde 20'sini, 1.100 çalışanı işten çıkardığını duyurdu.