谷歌掀波究竟是市場短期效應？還是長期衝擊？

TurboQuant在於提升運作效率、降低對記憶體的依賴。反過來說，這也能讓單一記憶體應付更多不斷成長的ＡＩ推論，對記憶體的總體需求不減反增。

文 ● 魏聖峰

▲谷歌推出TurboQuant，在效率提升前提下，將能應付不斷成長的AI推論。AI繪圖
最近谷歌開發出ＡＩ壓縮技術TurboQuant以提升運作效率，宣稱可以將大語言模型（ＬＬＭ）所需記憶體的用量降低到原本的六分之一。假若這項模型技術效率大量普及，恐將削弱對記憶體需求，並衝擊ＳＫ海力士、美光科技和三星電子等記憶體大廠的成長動態，同樣也衝擊台股記憶體股近期的表現。

提升ＡＩ運作效率

這項技術主要針對鍵值快取（KV cache）進行優化，讓原本ＡＩ模型用十六位原來存取一個參數的技術，能壓縮到只有八位元或四位元。這就像是幫ＡＩ模型瘦身。在一個龐大的神經網絡中，並非所有的參數都對結果有貢獻，幫整個結構精簡化，這對硬體結構相對友善，能實質提升運算效率。其主要目的是要減少參數總量，讓模型體積變小、跑得更快，並能盡量維持原本的準確度。這樣既能節省空間、加速運算效率並且能降低能耗。

這樣提升技術，會減少記憶體使用量三∼八成之多，能讓推論效率提升數倍到十數倍之多，在相同的硬體上支援更大模型或更多請求的運算效果。然而，這樣的技術核心並不是減少對記憶體的需求，而是提升記憶體使用效率。谷歌的這項壓縮技術，的確降低ＡＩ模型每單位使用記憶體的數量；但相對來說，單位記憶體用量下降，也代表每單位記憶體容量能支援更多的ＡＩ模型。

這對總體記憶體的總體需求量不會有太大的衝擊，反而因為模型運作效率的提升，會讓ＡＩ模型有更多的推論次數，一旦推論次數激增數倍或十數倍，對記憶體容量的需求反而帶來更大的推升動能。這就形成典型經濟學現象的效率悖論（Jevons Paradox）—當資源使用效率提升時，總體需求反而上升。一旦推論成本降低，會讓ＡＩ從雲端走入終端（手機、筆電、邊緣設備），帶動更廣泛的DRAM需求。節省下來的空間，開發者可能會用來塞入更長、更複雜的文本（contex），最終對記憶體總量需求不減反增。然而，或許很多記憶體股從去年下半年至今漲幅已經很多，市場上任何的風吹草動都很容易挑撥到市場情緒。近期的記憶體股就在這個情緒湧上來後，股價受到明顯的衝擊。

推論需求爆發性成長

當前ＡＩ模型持續地擴張，ＬＬＭ仍持續朝向更高的參數量和更長的本文長度（contex length）發展，一個ＡＩ模型的本文長度已從一二八Ｋ成長到百萬token，這直接吞噬效率提升所釋放的記憶體空間。現在ＡＩ產業正從訓練驅動轉向推論驅動，推論需求呈現爆發性成長，這是整ＡＩ核心的變數。這樣的發展能普及化ＡＩ，從ＡＩ代理、微軟Copilot到搜尋整合，到處都能大幅提高ＡＩ推論次數。推論次數呈現指數型成長，而這樣的推論正是消耗記憶體頻寬的應用場景。再者，很多新興的ＡＩ架構，例如MoE（混合專家模型）、RAG（檢索增強生成）以及多模態模型等，本質上都能提升對記憶體頻寬的依賴。

TurboQuant的出現，對當前ＡＩ對ＨＢＭ的需求並沒有任何影響，以到明年底的短期來說，ＡＩ模型對ＧＰＵ記憶體配置仍持續上升，Nvidia目前GB300和下半年要推出的Vera Rubin持續提升ＨＢＭ用量。ＡＩ機櫃對ＨＢＭ的規格將由現行的HBN3e提升到HBM4，其單一記憶體堆疊容量提升大約三三∼七七％，代表AI GPU架構對記憶體的需求不減反增，ＨＢＭ的需求仍屬於剛性需求。這就是黃仁勳幾個星期前向記憶體業者喊話的，盡量擴產記憶體，Nvidia都會埋單的情境。

谷歌目前的ＡＩ模型使用Gemini，新研發的TurboQuant技術並不是要取代Gemini，而是要成為Gemini的加速引擎與瘦身工具。兩者在ＡＩ模型中扮演不同的角色。模型主體的Gemini屬於大腦，負責思考與生成內容，而TurboQuant則是高效壓縮技術，負責讓這個大腦在運算時更省力、更省記憶體。

滲透率能多大是關鍵

目前Gemini最強大的特色是能處理相當於幾千頁文件的一○○萬甚至二○○萬個token，但這非常消耗伺服器的記憶體。藉由TurboQuant節省六倍記憶體，谷歌可以用同樣的成本，提供給更多使用者超長上下文的功能，將成為Gemini競爭GPT-4或Claude的核心優勢。再來就是推動邊緣ＡＩ，目前手機板Gemini Nano為了塞進手機，精準度有些許的誤差，透過TurboQuant具有零精準度損失的特性，意味著谷歌可以把更強、更大的Gemini模型，透過3-bit壓縮塞進iPhone或Android手機中，而不必擔心手機記憶體的不足。

TurboQuant縱使能節省很多記憶體空間，但這項技術仍處於早期階段，短期間內難以普及。該技術需要重整架構和推論流程，加上還需要記憶體管理，工程導入的門檻相對高。再來就是這項技術是谷歌研發出來的，短期內谷歌或許會應用在自家的ＡＩ模型運算內，或者是優化Gemini技術。然而，這項技術短期內或許不會被其他架構採用，在沒有辦法納入其他ＡＩ生態系內，技術的普及化就會受到影響。

根據情境分析，TurboQuan的市場滲透率若小於兩成，對記憶體產業幾乎沒有影響，記憶體產業仍可維持年複合成長率二五∼三五％。要等到這項技術的市場滲透率超過兩成且還沒突破五成間，才會造成記憶體產業出現成長趨緩的現象，其年複合成長率此時有可能會降到十五∼二五％成長。若是朝向這樣的發展，才會造成記憶體的成長斜率變平。雖然產業界還不會出現這個現象，最近金融市場卻擔心這樣的情境，造成先前股價漲多的記憶體股下跌。

記憶體仍供不應求

ＳＫ海力士、美光科技和三星電子最新財報出來後都呈現強勁成長趨勢，尤其是在ＡＩ用量最大的HBM與DDR5部分，這三大廠到今年底的產能都被訂光，有些客戶為了規劃明年以後的需求，也開始向這三大廠訂購明年以後的產能。ＡＩ對記憶體產業還延伸到超大容量硬碟和快閃記憶體產業，推升希捷科技、威騰電子和鎧俠等業者呈現ＡＩ的超級景氣循環。記憶體業者因應ＡＩ的強勁需求，只能擴廠因應。在新產能還沒開出以前，記憶體價格仍是高單價，提高記憶體業者的獲利成長動能。

TurboQuan的問世，代表ＡＩ產業進入效率優化階段，但這不意味著對記憶體需求的結束。對記憶體產業來說ＡＩ記憶體將從先前的爆發式成長，進入高成長但可預期的成長階段。對金融市場而言，短期內市場對記憶體股反應過度，屬於市場情緒性的利空。中期來說，記憶體股的成長估值會下修，使得記憶體股走勢由先前的爆發性成長變成長期的高檔區間震盪。至於長期對記憶體產業來說，還看不出有結構性的改變。記憶體股短期過度反應下，也許能造就下一波股價反彈的買點。

… 本文摘錄自先探投資週刊 2026/4月第2399期

閱讀完整內容

TurboQuant讓記憶體股反應過度

谷歌掀波究竟是市場短期效應？還是長期衝擊？

本文摘錄自‎