Googles TurboQuant drückt den KV-Cache großer Sprachmodelle auf 3 Bit. Die Genauigkeit soll bleiben, die Geschwindigkeit sich vervielfachen
Manche Entwickler hofften bislang, dass Sprachmodelle Fähigkeiten erlenen, die über ihr Trainingspensum hinausgehen. Das hat sich als Trugschluss erwiesen