Google'dan Yapay Zekâyı 8 Kat Hızlandıran Algoritma

Google Research, büyük dil modellerinin bellek darboğazını ortadan kaldıran TurboQuant sıkıştırma algoritmasını duyurdu. Doğruluk kaybı olmaksızın 6 kata kadar bellek tasarrufu ve H100 GPU'larda 8 kat hız artışı sağlıyor.

Google'dan Yapay Zekâyı 8 Kat Hızlandıran Algoritma

Google Research, büyük yapay zekâ modellerinin en kritik performans engellerinden birini aşmak için yeni bir algoritma ailesi geliştirdi. TurboQuant, dil modellerindeki bellek darboğazını teorik sınırlara yakın bir verimlilikle çözerken doğruluk kaybı yaşatmıyor.

Sorun şu: Büyük dil modelleri çalışırken sıkça başvurulan verileri anahtar-değer (KV) önbelleğinde saklıyor. Bu önbellek ne kadar büyük olursa model o kadar yavaşlıyor ve daha fazla bellek tüketiyor. Vektör sıkıştırma bu problemi çözse de geleneksel yöntemler her veri bloğu için ek sıkıştırma sabitleri depolamak zorunda kalıyor — bu da amaçlanan tasarrufun bir kısmını geri alıyor. TurboQuant bunu iki adımda çözüyor: PolarQuant yöntemi veriyi Kartezyen koordinatlardan kutupsal koordinatlara dönüştürerek sıkıştırma sabitlerinin gerektirdiği ek belleği tamamen ortadan kaldırıyor.

QJL (Quantized Johnson-Lindenstrauss) algoritması ise her sayıyı tek bir bit işaretiyle (+1 veya -1) temsil ederek kalan hata payını sıfır bellek ek yükü ile gideriyor. Sonuçlar çarpıcı. TurboQuant, eğitim veya ince ayar gerektirmeden KV önbelleğini yalnızca 3 bit'e sıkıştırabiliyor ve bu süreçte model doğruluğunda hiçbir bozulma yaşanmıyor. Bellek kullanımı en az 6 kat azalırken NVIDIA H100 GPU'larda 8 kat hız artışı elde ediliyor.

Vektör arama performansında da rakip yöntemleri geride bırakan üstün sonuçlar elde edildi. TurboQuant, ICLR 2026 konferansında; PolarQuant ise AISTATS 2026'da sunulacak. Google Research, bu teknolojinin yalnızca pratik bir mühendislik çözümü değil, güçlü teorik kanıtlarla desteklenen temel bir algoritmik katkı olduğunu vurguluyor. Gemini gibi modellerde KV önbelleğini optimize etmenin yanı sıra milyarlarca vektör arasında anlamsal arama yapan sistemler için de kritik bir altyapı olarak konumlandırılıyor.

Kaynak: Google

İlginizi Çekebilir