TurboQuant无需改动现有模型,也不用重新训练或微调,就能把键值缓存压缩到仅需3比特精度,同时几乎不损失模型的准确率。在Gemma、Mistral等主流开源模型上的实测显示,缓存内存可减少约6倍;在英伟达H100芯片上,相关计算速度最高提升约8倍。
这项技术不仅适用于AI大模型,也能增强大规模搜索引擎的向量检索效率。谷歌将在今年4月举行的国际学习表征会议(ICLR 2026)上正式发布该技术。
【版权提示】信息来自于互联网,不代表外贸内参立场,内容仅供网友参考学习。如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至[email protected],我们将及时沟通与处理。如若转载请联系原出处。