最近,谷歌論文 TurboQuant 引發全球內存股震蕩,之后論文原作者也出來澄清,稱谷歌 TurboQuant 歪曲了他們的算法成果(見文末相關閱讀鏈接)。那么這篇論文中提到的“性能奇跡”是怎么來的?
此前,谷歌Research官方賬號發布過一則宣傳帖。谷歌在帖子里說,他們的新壓縮算法TurboQuant能把LLM的key-value cache內存至少減少6倍,同時帶來最高8倍的速度提升,而且精度完全不損失。
![]()
谷歌這篇文章里面詳細介紹了這個算法,還鏈接了arXiv論文2504.19874。博客和論文里反復強調,TurboQuant在LongBench、Needle-in-a-Haystack等基準測試中表現完美,內存壓縮到3-3.5比特每通道,速度比32位全精度快很多,實驗硬件是NVIDIA A100 GPU(論文明確說所有實驗都在單張A100上跑)。
對此,有博主就指出,谷歌把對照組從之前的C++實現改成了Python單線程、單核CPU跑,而自己的TurboQuant算法卻在A100 GPU上跑。這樣一對比,內存減少倍數和性能提升倍數當然顯得特別大。原來大家用C++做基準的時候,對照組本身就很快,現在換成最慢的Python單線程單核CPU,對照組自然慢得一塌糊涂,自己的GPU實現一比就“8倍加速”了。論文里雖然沒把這句話寫在標題上,但實驗描述和實現細節里能看出,基線方法(比如Product Quantization和RabitQ)是CPU上的非向量化實現,而TurboQuant直接用GPU加速,量化時間從幾百秒直接降到0.001秒左右,這種硬件和實現方式的差異直接放大了性能差距。
![]()
谷歌這次宣傳的重點是“零精度損失、6倍內存節省、8倍加速”,聽起來確實能解決LLM推理里的KV cache瓶頸,讓長上下文模型跑得更省資源。論文也確實證明了在Llama-3.1-8B-Instruct等模型上,TurboQuant在壓縮后和全精度模型得分幾乎一樣,針在干草堆測試里召回率也完美。
但如果把對照組也換成同樣硬件、同樣的優化級別,所謂的“倍數提升”會不會就沒那么驚人了?以前論文常用C++做高性能基線,這次突然改成Python單線程單核CPU,宣傳效果直接拉滿,卻讓讀者誤以為任何人都能輕松拿到8倍加速。
谷歌這個事情的惡劣之處在于,一開始讓大眾覺得太厲害了,這玩意兒能提高六倍、八倍!后來看全是假的,搞得業內花了很大時間去驗證這東西是真是假,造成極大的浪費。
這件事不是說TurboQuant算法本身沒價值。谷歌在向量量化上確實做了理論工作,用PolarQuant和QJL結合的方式解決了傳統量化里的內存開銷問題,數據無關、在線量化這些特點也確實實用。但宣傳的時候,如果基準設置得不夠公平,就容易讓人覺得論文在“優化”結果而不是客觀報告結果。普通開發者看到博客標題,可能會以為只要用上TurboQuant,內存和速度問題就一勞永逸了,可實際落地時還得自己確認基線條件、硬件環境和代碼實現,才能知道真實收益到底有多大。
科技圈里類似情況其實不少,論文里硬件不對齊、實現語言不對齊,最后宣傳出來的倍數就成了最吸睛的部分。TurboQuant的論文和代碼如果公開,大家可以自己復現對照組,看看把Python單線程單核CPU換回C++或者同樣GPU優化后的JAX基線,實際加速倍數會變成多少。
總之,谷歌這次TurboQuant在技術上往前走了一步,但宣傳里對照組的切換,讓“6倍內存減少、8倍性能提升”這個結論需要打個折扣。想真正用到生產環境,還是得自己拿相同條件跑一遍數據,才知道對自己的模型到底有多大幫助。
【相關閱讀】
一論文引發全球內存股震蕩!原作者澄清:Google TurboQuant 歪曲我們的算法成果
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.