谷歌掀波 究竟是市場短期效應?還是長期衝擊?
TurboQuant在於提升運作效率、降低對記憶體的依賴。反過來說,這也能讓單一記憶體應付更多不斷成長的AI推論,對記憶體的總體需求不減反增。 文 ● 魏聖峰
▲谷歌推出TurboQuant,在效率提升前提下,將能應付不斷成長的AI推論。AI繪圖
最近谷歌開發出AI壓縮技術TurboQuant以提升運作效率,宣稱可以將大語言模型(LLM)所需記憶體的用量降低到原本的六分之一。假若這項模型技術效率大量普及,恐將削弱對記憶體需求,並衝擊SK海力士、美光科技和三星電子等記憶體大廠的成長動態,同樣也衝擊台股記憶體股近期的表現。 提升AI運作效率 這項技術主要針對鍵值快取(KV cache)進行優化,讓原本AI模型用十六位原來存取一個參數的技術,能壓縮到只有八位元或四位元。這就像是幫AI模型瘦身。在一個龐大的神經網絡中,並非所有的參數都對結果有貢獻,幫整個結構精簡化,這對硬體結構相對友善,能實質提升運算效率。其主要目的是要減少參數總量,讓模型體積變小、跑得更快,並能盡量維持原本的準確度。這樣既能節省空間、加速運算效率並且能降低能耗。 這樣提升技術,會減少記憶體使用量三∼八成之多,能讓推論效率提升數倍到十數倍之多,在相同的硬體上支援更大模型或更多請求的運算效果。然而,這樣的技術核心並不是減少對記憶體的需求,而是提升記憶體使用效率。谷歌的這項壓縮技術,的確降低AI模型每單位使用記憶體的數量;但相對來說,單位記憶體用量下降,也代表每單位記憶體容量能支援更多的AI模型。 這對總體記憶體的總體需求量不會有太大的衝擊,反而因為模型運作效率的提升,會讓AI模型有更多的推論次數,一旦推論次數激增數倍或十數倍,對記憶體容量的需求反而帶來更大的推升動能。這就形成典型經濟學現象的效率悖論(Jevons Paradox)—當資源使用效率提升時,總體需求反而上升。一旦推論成本降低,會讓AI從雲端走入終端(手機、筆電、邊緣設備),帶動更廣泛的DRAM需求。節省下來的空間,開發者可能會用來塞入更長、更複雜的文本(contex),最終對記憶體總量需求不減反增。然而,或許很多記憶體股從去年下半年至今漲幅已經很多,市場上任何的風吹草動都很容易挑撥到市場情緒。近期的記憶體股就在這個情緒湧上來後,股價受到明顯的衝擊。
推論需求爆發性成長 當前AI模型持續地擴張,LLM仍持續朝向更高的參數量和更長的本文長度(contex length)發展,一個AI模型的本文長度已從一二八K成長到百萬token,這直接吞噬效率提升所釋放的記憶體空間。現在AI產業正從訓練驅動轉向推論驅動,推論需求呈現爆發性成長,這是整AI核心的變數。這樣的發展能普及化AI,從AI代理、微軟Copilot到搜尋整合,到處都能大幅提高AI推論次數。推論次數呈現指數型成長,而這樣的推論正是消耗記憶體頻寬的應用場景。再者,很多新興的AI架構,例如MoE(混合專家模型)、RAG(檢索增強生成)以及多模態模型等,本質上都能提升對記憶體頻寬的依賴。 TurboQuant的出現,對當前AI對HBM的需求並沒有任何影響,以到明年底的短期來說,AI模型對GPU記憶體配置仍持續上升,Nvidia目前GB300和下半年要推出的Vera Rubin持續提升HBM用量。AI機櫃對HBM的規格將由現行的HBN3e提升到HBM4,其單一記憶體堆疊容量提升大約三三∼七七%,代表AI GPU架構對記憶體的需求不減反增,HBM的需求仍屬於剛性需求。這就是黃仁勳幾個星期前向記憶體業者喊話的,盡量擴產記憶體,Nvidia都會埋單的情境。 谷歌目前的AI模型使用Gemini,新研發的TurboQuant技術並不是要取代Gemini,而是要成為Gemini的加速引擎與瘦身工具。兩者在AI模型中扮演不同的角色。模型主體的Gemini屬於大腦,負責思考與生成內容,而TurboQuant則是高效壓縮技術,負責讓這個大腦在運算時更省力、更省記憶體。
滲透率能多大是關鍵 目前Gemini最強大的特色是能處理相當於幾千頁文件的一○○萬甚至二○○萬個token,但這非常消耗伺服器的記憶體。藉由TurboQuant節省六倍記憶體,谷歌可以用同樣的成本,提供給更多使用者超長上下文的功能,將成為Gemini競爭GPT-4或Claude的核心優勢。再來就是推動邊緣AI,目前手機板Gemini Nano為了塞進手機,精準度有些許的誤差,透過TurboQuant具有零精準度損失的特性,意味著谷歌可以把更強、更大的Gemini模型,透過3-bit壓縮塞進iPhone或Android手機中,而不必擔心手機記憶體的不足。 TurboQuant縱使能節省很多記憶體空間,但這項技術仍處於早期階段,短期間內難以普及。該技術需要重整架構和推論流程,加上還需要記憶體管理,工程導入的門檻相對高。再來就是這項技術是谷歌研發出來的,短期內谷歌或許會應用在自家的AI模型運算內,或者是優化Gemini技術。然而,這項技術短期內或許不會被其他架構採用,在沒有辦法納入其他AI生態系內,技術的普及化就會受到影響。 根據情境分析,TurboQuan的市場滲透率若小於兩成,對記憶體產業幾乎沒有影響,記憶體產業仍可維持年複合成長率二五∼三五%。要等到這項技術的市場滲透率超過兩成且還沒突破五成間,才會造成記憶體產業出現成長趨緩的現象,其年複合成長率此時有可能會降到十五∼二五%成長。若是朝向這樣的發展,才會造成記憶體的成長斜率變平。雖然產業界還不會出現這個現象,最近金融市場卻擔心這樣的情境,造成先前股價漲多的記憶體股下跌。
記憶體仍供不應求 SK海力士、美光科技和三星電子最新財報出來後都呈現強勁成長趨勢,尤其是在AI用量最大的HBM與DDR5部分,這三大廠到今年底的產能都被訂光,有些客戶為了規劃明年以後的需求,也開始向這三大廠訂購明年以後的產能。AI對記憶體產業還延伸到超大容量硬碟和快閃記憶體產業,推升希捷科技、威騰電子和鎧俠等業者呈現AI的超級景氣循環。記憶體業者因應AI的強勁需求,只能擴廠因應。在新產能還沒開出以前,記憶體價格仍是高單價,提高記憶體業者的獲利成長動能。 TurboQuan的問世,代表AI產業進入效率優化階段,但這不意味著對記憶體需求的結束。對記憶體產業來說AI記憶體將從先前的爆發式成長,進入高成長但可預期的成長階段。對金融市場而言,短期內市場對記憶體股反應過度,屬於市場情緒性的利空。中期來說,記憶體股的成長估值會下修,使得記憶體股走勢由先前的爆發性成長變成長期的高檔區間震盪。至於長期對記憶體產業來說,還看不出有結構性的改變。記憶體股短期過度反應下,也許能造就下一波股價反彈的買點。 … 本文摘錄自 先探投資週刊 2026/4月 第2399期
閱讀完整內容
滲透率能多大是關鍵 目前Gemini最強大的特色是能處理相當於幾千頁文件的一○○萬甚至二○○萬個token,但這非常消耗伺服器的記憶體。藉由TurboQuant節省六倍記憶體,谷歌可以用同樣的成本,提供給更多使用者超長上下文的功能,將成為Gemini競爭GPT-4或Claude的核心優勢。再來就是推動邊緣AI,目前手機板Gemini Nano為了塞進手機,精準度有些許的誤差,透過TurboQuant具有零精準度損失的特性,意味著谷歌可以把更強、更大的Gemini模型,透過3-bit壓縮塞進iPhone或Android手機中,而不必擔心手機記憶體的不足。 TurboQuant縱使能節省很多記憶體空間,但這項技術仍處於早期階段,短期間內難以普及。該技術需要重整架構和推論流程,加上還需要記憶體管理,工程導入的門檻相對高。再來就是這項技術是谷歌研發出來的,短期內谷歌或許會應用在自家的AI模型運算內,或者是優化Gemini技術。然而,這項技術短期內或許不會被其他架構採用,在沒有辦法納入其他AI生態系內,技術的普及化就會受到影響。 根據情境分析,TurboQuan的市場滲透率若小於兩成,對記憶體產業幾乎沒有影響,記憶體產業仍可維持年複合成長率二五∼三五%。要等到這項技術的市場滲透率超過兩成且還沒突破五成間,才會造成記憶體產業出現成長趨緩的現象,其年複合成長率此時有可能會降到十五∼二五%成長。若是朝向這樣的發展,才會造成記憶體的成長斜率變平。雖然產業界還不會出現這個現象,最近金融市場卻擔心這樣的情境,造成先前股價漲多的記憶體股下跌。
記憶體仍供不應求 SK海力士、美光科技和三星電子最新財報出來後都呈現強勁成長趨勢,尤其是在AI用量最大的HBM與DDR5部分,這三大廠到今年底的產能都被訂光,有些客戶為了規劃明年以後的需求,也開始向這三大廠訂購明年以後的產能。AI對記憶體產業還延伸到超大容量硬碟和快閃記憶體產業,推升希捷科技、威騰電子和鎧俠等業者呈現AI的超級景氣循環。記憶體業者因應AI的強勁需求,只能擴廠因應。在新產能還沒開出以前,記憶體價格仍是高單價,提高記憶體業者的獲利成長動能。 TurboQuan的問世,代表AI產業進入效率優化階段,但這不意味著對記憶體需求的結束。對記憶體產業來說AI記憶體將從先前的爆發式成長,進入高成長但可預期的成長階段。對金融市場而言,短期內市場對記憶體股反應過度,屬於市場情緒性的利空。中期來說,記憶體股的成長估值會下修,使得記憶體股走勢由先前的爆發性成長變成長期的高檔區間震盪。至於長期對記憶體產業來說,還看不出有結構性的改變。記憶體股短期過度反應下,也許能造就下一波股價反彈的買點。 … 本文摘錄自 先探投資週刊 2026/4月 第2399期



