Veröffentlicht am 26. März 2026 von oschrammGoogle komprimiert LLM-Cache auf 3 Bit ohne Genauigkeitsverlust Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen.