Anthropic’ten Distillation Alarmı
Anthropic, Claude’un yeteneklerini kopyalamaya yönelik “distillation” kampanyaları tespit ettiğini ve milyonlarca sahte etkileşimi engellediğini açıkladı.
Anthropic, Claude’un yeteneklerini izinsiz şekilde “damıtarak” kendi modellerine aktarmaya çalışan endüstriyel ölçekte kampanyalar tespit ettiğini duyurdu.
Şirkete göre DeepSeek, Moonshot ve MiniMax ile ilişkilendirilen operasyonlarda yaklaşık 24 bin sahte hesap kullanıldı ve Claude ile 16 milyondan fazla etkileşim üretildi. Anthropic, bunun hizmet koşullarını ve bölgesel erişim kısıtlarını ihlal ettiğini vurguluyor. Anthropic’in işaret ettiği yöntem “distillation”: Daha güçlü bir modelin çıktılarıyla daha zayıf bir modeli eğitmek. Şirket, distillation’ın normalde meşru bir teknik olduğunu ancak rakiplerin bu yöntemi hızlı ve düşük maliyetle ileri seviye kabiliyet “çekmek” için kötüye kullanabildiğini söylüyor.
Kampanyaların hedefinde özellikle ajan benzeri akıl yürütme, araç kullanımı ve kodlama gibi Claude’un ayrıştırıcı özellikleri yer alıyor. Açıklamada en kritik vurgu ise güvenlik tarafında: Anthropic, izinsiz damıtılmış modellerin gerekli güvenlik korkuluklarını taşımayabileceğini ve bunun ulusal güvenlik riskleri doğurabileceğini belirtiyor. Şirket, bu tür kabiliyetlerin askeri, istihbarat veya gözetim sistemlerine beslenebileceği; açık kaynak hâline gelmesi durumunda riskin katlanarak büyüyebileceği görüşünde.
Anthropic, saldırganların ölçeklenebilir erişim için ticari proxy servisleri ve “hydra cluster” benzeri hesap ağları kullandığını; bir hesap kapatılsa bile yenisinin hızla devreye alındığını aktarıyor. Şirket, karşı önlem olarak davranışsal tespit sistemleri, sektörle istihbarat paylaşımı, daha sıkı erişim doğrulaması ve distillation verimini düşürmeye dönük API/model seviyesinde korumalar geliştirdiğini söylüyor. Anthropic’e göre pencere dar: Bu tehdidin tek bir şirketle sınırlı olmadığı ve hızlı, koordineli bir sektör yanıtı gerektirdiği belirtiliyor.
Kaynak: Anthropic