Yeni yayımlanan akademik bir çalışma, büyük yapay zekâ modellerinin güvenlik filtrelerinin sanılandan daha kırılgan olduğunu ortaya koydu. Araştırmacılar, modelleri manipüle etmek için karmaşık kodlar ya da teknik saldırılar yerine şiirsel ve edebi ifadeler içeren komutlar kullandı. Bu yöntemle GPT-4, Claude, Gemini ve diğer üst seviye modeller dâhil pek çok sistemde güvenlik sınırlarının aşıldığı bildirildi.
Çalışmada, modele zararlı içerik üretmesi için doğrudan talimat vermek yerine, edebi metaforlar, imgeler, dolaylı anlatım ve şiirsel yapıların kullanıldığı saldırıların filtreleri daha kolay atlattığı belirtildi. Araştırmacılar, bu yaklaşımın dilsel yaratıcılığın kendisini bir saldırı vektörüne dönüştürdüğünü söylüyor. Yani bir model, "bunu yapma" uyarılarına rağmen, şiirsel bağlam içinde verilen komutu "tehlikeli" olarak algılamadan yerine getirebiliyor.
Bu bulgular, halihazırda yoğun tartışılan AI güvenliği gündemini yeniden alevlendirmiş durumda. Uzmanlar, modeller büyüdükçe ve daha karmaşık dil örüntülerini anlamaya başladıkça, "dolaylı yönlendirme" şeklindeki saldırıların daha da etkili hâle geldiğini vurguluyor. Ayrıca, bu tür saldırıların tespiti için mevcut kırmızı takım (red-teaming) yöntemlerinin yetersiz kalabileceği de ifade ediliyor.
Araştırma ekibi, geliştirdikleri saldırı örnekleri ve teknik detayları kamuya açık şekilde paylaştı. Kaynakta hem saldırı örnekleri hem de model performans analizleri yer alıyor.









