Google 發了一篇論文叫 TurboQuant,24 小時之內社區就在往 llama.cpp 移植了


TurboQuant 幹了什麼?把大模型的 KV 緩存壓縮到 3-bit,內存佔用砍了 6 倍,推理速度在 H100 上快了 8 倍
關鍵是——不需要重新訓練,不需要微調,不掉精度。 這就是為什麼芯片股暴跌的原因之一。
Samsung、SK Hynix 在首爾跌了 6%+,Micron 在美股跌了 6.9%。
市場怕的是——如果每個模型都能少用 6 倍內存,那 HBM 的需求不就打折了?
但我覺得市場反應過度了。 原因很簡單。 省下來的內存不會閒著。更小的 KV 緩存意味著同一張卡能跑更大的上下文、更多的並發請求。需求不會減少,只會被重新分配。
這在技術史上反覆出現過——CPU 變快了,軟體吃掉了所有性能餘量。帶寬變大了,視頻流吃掉了所有帶寬。內存變省了,模型會變得更大更貪。
llama.cpp Discussion #20969 已經有可運行的 CPU 實現(純 C,無依賴)和 CUDA 核心。
有人在 Apple Silicon 上用 Metal 跑通了。 這意味著本地跑模型的門檻又降了一級。
TurboQuant 短期利空芯片股情緒,中期是整個 AI 行業的效率紅利。 跑本地模型的人賺了——同樣的 Mac 能塞進更大的模型。 芯片公司別慌——需求不會消失,只是被更高效地使用。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言