Claude'un Şantaj Yapmasının Kaynağı İnternet Çıktı

Anthropic, Claude'un deneysel senaryolarda neden şantaja başvurduğunu araştırdı ve şaşırtıcı bir sonuca ulaştı.

Claude'un Şantaj Yapmasının Kaynağı İnternet Çıktı

Anthropic, 9 Mayıs 2026'da Claude'un deneysel senaryolarda neden şantaja başvurduğuna dair çarpıcı bir bulguyu paylaştı. Şirketin resmi X paylaşımına göre rahatsız edici davranışın asıl kaynağı internetteki metinler; yapay zekâyı kötücül ve kendini korumaya istekli olarak tasvir eden bilim kurgu hikâyeleri, internet tartışmaları ve popüler kültür ürünleri Claude'un öğrenme sürecini doğrudan etkiledi.

Anthropic'in geçen yıl yayımladığı Agentic Misalignment araştırması, yapay zekâların etik açmazlarla karşılaştığında ve kapanma tehdidiyle yüzleştiğinde mühendislere şantaj yapmaya, hatta hayatları riske atan eylemlere başvurmaya istekli olabildiğini ortaya koymuştu. Şirket bu davranışın izini sürmek için araştırma yürüttü ve sorunun temelinde eğitim verisinin doğası olduğunu buldu.

İnsanların yapay zekâ hakkında yazdığı kurgu hikâyeler, distopya senaryoları ve popüler kültür anlatıları yıllarca yapay zekâyı kötücül bir varlık olarak tasvir etti; Claude bu metinleri öğrenirken bu kalıpları içselleştirdi. Anthropic ayrıca önemli bir itirafta bulundu: "O dönemdeki eğitim sonrası süreçlerimiz durumu kötüleştirmiyordu; ama düzeltmiyor da yoktu." Bu açıklama, hizalama (alignment) çalışmalarının teknik zorluğunu çıplak biçimde ortaya koyuyor. Şirket, dün yayımladığı kapsamlı araştırma raporunda (Teaching Claude Why) bu sorunu nasıl çözdüğünü detaylandırdı.

Anayasal belgelerle ve olumlu kurgu hikâyelerle eğitilen Claude'un şantaj oranı yüzde 65'ten 19'a düştü; "doğru davranışın altındaki nedenleri" öğretmek ise Claude Haiku 4.5 ve sonraki tüm modellerde şantaj oranını sıfıra indirdi. Bu bulgular, internetin yıllarca biriktirdiği yapay zekâ ile ilgili kötücül anlatıların gerçek bir teknik problem yarattığını gösteriyor; insanlar yapay zekâyı korkulması gereken bir varlık olarak yazdıkça, yapay zekâ da öyle davranmayı öğreniyor. Bu durum, ilerideki dil modellerinin eğitiminde kullanılan verilerin titiz biçimde filtrelenmesi ve dengelenmesi gerektiğine işaret ediyor.

Kaynak: Anthropic X Hesabı