Şiirle Yapay Zekâyı Kandırmak
Yeni çalışma, 'şiirsel jailbreak' yöntemlerinin en gelişmiş modellerde bile işe yaradığını ortaya koydu.
Yeni çalışma, 'şiirsel jailbreak' yöntemlerinin en gelişmiş modellerde bile işe yaradığını ortaya koydu.
Yeni yayımlanan akademik bir çalışma, büyük yapay zekâ modellerinin güvenlik filtrelerinin sanılandan daha kırılgan olduğunu ortaya koydu. Araştırmacılar, modelleri manipüle etmek için karmaşık kodlar ya da teknik saldırılar yerine şiirsel ve edebi ifadeler içeren komutlar kullandı. Bu yöntemle GPT-4, Claude, Gemini ve diğer üst seviye modeller dâhil pek çok sistemde güvenlik sınırlarının aşıldığı bildirildi.
Çalışmada, modele zararlı içerik üretmesi için doğrudan talimat vermek yerine, edebi metaforlar, imgeler, dolaylı anlatım ve şiirsel yapıların kullanıldığı saldırıların filtreleri daha kolay atlattığı belirtildi. Araştırmacılar, bu yaklaşımın dilsel yaratıcılığın kendisini bir saldırı vektörüne dönüştürdüğünü söylüyor. Yani bir model, "bunu yapma" uyarılarına rağmen, şiirsel bağlam içinde verilen komutu "tehlikeli" olarak algılamadan yerine getirebiliyor.
Bu bulgular, halihazırda yoğun tartışılan AI güvenliği gündemini yeniden alevlendirmiş durumda. Uzmanlar, modeller büyüdükçe ve daha karmaşık dil örüntülerini anlamaya başladıkça, "dolaylı yönlendirme" şeklindeki saldırıların daha da etkili hâle geldiğini vurguluyor. Ayrıca, bu tür saldırıların tespiti için mevcut kırmızı takım (red-teaming) yöntemlerinin yetersiz kalabileceği de ifade ediliyor.
Araştırma ekibi, geliştirdikleri saldırı örnekleri ve teknik detayları kamuya açık şekilde paylaştı. Kaynakta hem saldırı örnekleri hem de model performans analizleri yer alıyor.
Apple, cihaz yönetimi, iş e-postası, takvim ve müşteri keşif araçlarını tek çatı altında toplayan Apple Business platformunu duyurdu. 14 Nisan'da 200'den fazla ülkede ücretsiz erişime açılacak.
Instagram, içerik üreticilerinin Reels videolarına doğrudan ürün etiketleyebileceği ve affiliate komisyon kazanabileceği yeni 'Ürün Ekle' özelliğini duyurdu.
Anthropic, Claude Code için yeni bir izin modu olan Auto Mode'u duyurdu.
Blue Origin, JPL ve Caltech iş birliğiyle geliştirilen NEO Hunter misyon konseptini duyurdu.
Apple, bu yaz itibarıyla Maps uygulamasına arama sonuçlarında sponsorlu içerik eklemeyi planlıyor. Servisler gelirini artırmayı hedefleyen adım, Google Maps reklamlarına benzer bir modelle işleyecek.
NASA, 'Ignition' etkinliğinde Ay üssü inşası, nükleer uzay aracı ve Mars planlarını kapsayan kapsamlı bir strateji duyurdu. ABD'nin uzaydaki liderliğini pekiştirmeye yönelik bu adımlar, aylık ve yıllık somut hedefler içeriyor.
OpenAI, ChatGPT'ye yüklenen tüm dosyaların otomatik olarak kaydedildiği ve konuşmalar arasında yeniden kullanılabildiği yeni Library özelliğini duyurdu.
YouTube, BrandConnect'i yeniden adlandırarak YouTube Creator Partnerships çatısı altında topladı.