隨著AI服務從訓練導向轉向推論導向,營運成本成為企業決策核心,GPU高成本與高功耗限制逐漸顯現;通用型GPU架構難以滿足AI服務,都讓ASIC由輔助角色轉為核心基礎設施。 文●魏聖峰 A成本而自行研發的客製化晶片,如SIC原本是大型CSP業者為了降低今Nvidia在GTC 2026宣布正式導入以Groq的LPU(語言處理單元)的ASIC推論架構,引發業界震撼,這將會讓ASIC在AI領域有關鍵性的轉折。過去Nvidia總認為,研發更強的GPU將能主導未來的AI世界,或許因為GPU的研發成本高,並出現部分瓶頸,現在還得需要低功耗、低延遲等的需求,這恐怕是GPU短期內難以做到的事。現在的AI應用將從訓練轉向推論(Inference)以實際落地。在這個背景下,ASIC有機會從邊緣角色,轉變為AI基礎設施的一部分。 Groq是一家專注於AI推論的ASIC公司,核心產品是語言處理單元(LPU),專門針對大語言模型(LLM)的推理速度進行優化,強調低延遲與高吞吐量。與純統GPU相比,Groq是完全不同的設計理念。在資料流導向架構上,GPU採用通用運算架構,需要頻繁從外部記憶體(HBM)存取資料,而Groq透過大量內建SRAM、靜態排程和管道化(Pipline)資料流,讓資料可以在晶片內部流動,明顯降低延遲。接著是SRAM取代HBM,降低對HBM依賴,避免記憶體瓶頸和提供極低延遲。這對LLM推論中的token-by-token生成非常重要。
Groq是ASIC晶片 Groq這款晶片並不適用在模型訓練,而是專注在即時對話、AI代理、程式生成以及邊緣AI應用上。它是一款為AI應用而生的晶片,而不是為訓練而設計的晶片。隨著LLM逐步成熟,市場關鍵指標也隨之改變。不再只是算力,而是延遲(Latency)、能耗和單位成本等問題。GPU在上述指標下,相較ASIC晶片的成本、能耗都來得高,且延遲不夠低,在AI應用上GPU就不符合成本需求。這也讓過去Nvidia的GPU獨大格局遭到自我顛覆,得靠導入Groq ASIC晶片方式,讓Nvidia的AI架構補上推論的缺口。 先前本刊曾介紹過Vera Rubin架構中的六大晶片平台,包含Vera CPU、Rubin GPU、DPU、NVLink、ConnectX NIC和記憶體HBM。 這些晶片分別掌管整個AI系統的控制、訓練、資料處理中心、高速互連、網路連結和記憶體等主要功能,代表Nvidia正從晶片供應商轉型為AI工廠架構提供者,Vera Rubin就是一座AI工廠。 現在出現一個問題,就是GPU在進行資料叢集運作時,會需要向記憶體不斷地存取資料,這會造成記憶體有瓶頸並形成運作效率出現延遲現象。如果在AI應用端也採用這類GPU時,將出現這類問題,並影響應用端的效率。再者,GPU的價格較高,大型CSP業者在他們的資料中心,在比較次要端或是應用端部分的運作,就採用自研ASIC晶片,降低建置成本是主要的理由。當Nvidia發現GPU有上述瓶頸時,透過導入GroqASIC晶片來解決,主要用在即時推論生成(Decode),形成混合運算架構。這個架構下,GPU負責大規模運算,ASIC負責高效率執行。
降低建置成本 過去黃仁勳對於ASIC晶片的評論,大致認為運作效率不如自家GPU來得強,雖然能降低成本,卻可能在算力上輸一截,結果可能適得其反並喪失客戶算力的商機。黃仁勳這樣講到現在都沒錯,的確ASIC晶片運作效率不如GPU強,但如果擺在次要的運算中心,因為這個次要運算中心不需要非常強大的GPU算力,還能降低成本。隨著邊緣運算需求在未來AI應用上會扮演重要的角色,而邊緣運算中心的主流就會是ASIC晶片。這樣的趨勢,加上Nvidia採用Groq的ASIC晶片後,很可能就讓ASIC晶片在AI架構上浮上檯面。 很多大型CSP業者早就在研發ASIC晶片,並已運用在自家資料中心上。CSP業者自研ASIC晶片主要不是賣晶片,而是要降低自家資料中心的建置成本。谷歌研發TPU系列、亞馬遜AWS研發Trainium/Inferentia晶片,其中Trainium已來到第三代、微軟有MaiaAI晶片、Meta也有MTIA。這些ASIC都是用在特定功能需求上,與通用型GPU不同。換句話說,每款ASIC晶片各有不通的功能且都不能被其他晶片所取代。由於CSP對資料中心運作需求很大,更不願意過度依賴Nvidia的GPU,所以自研ASIC晶片。 博通、Marvell需求IP龐大 因應ASIC強勁的需求,博通、Marvell科技有強大的IP資料庫,提供上述ASIC自研晶片的IP需求。甚至於通用型GPU業者的超微,也看到ASIC客製化商機,推出AI加速器與半客製化解決方案。先前博通發布財報時,就指出該公司上季與AI相關業務年增率成長一○六%,Marvell科技也強調AI資料中心需求強勁帶動營運成長。博通、Marvell科技這裡所指的與AI相關業務,有一大半就是ASIC的IP需求。當AI晶片正在從標準化GPU走向客製化ASIC時,CSP自研的ASIC晶片和博通、Marvell科技就會變得越來越重要。 在AI商業模式下無法承受GPU架構,這是最核心、最不可逆的驅動力。在二○二三年以前的AI架構以AI訓練為主,推論用量低,AI架構大多使用GPU。隨著AI生成需求越來越多,從今年開始AI將以推論為主,因為推論的成本很高,這時AI架構將轉向ASIC。以大語言模型(LLM)為例,訓練成本只有一次性成本支出,而推論成本則為持續性的成本支出,這就是推論成本會很高的理由。 以Nvidia GPU為例,每顆單價高達二∼四萬美元,單顆功耗超過七○○瓦,在推論使用時利用率不穩定。這會造成每單位token成本過高,而且無法支撐大規模AI服務(像Chatbot、代理)等的問題。相形之下,使用ASIC可以去除不必要的任務(就是去通用化),只專注單一任務(推論)。這樣的結果就能讓成本下降三∼八成之多,而且能源效率可以提升二∼十倍。今年金融市場常在意大型CSP業者大量投資在AI資本支出上能有多少的報酬回收收益的問題,代表現在的AI產業將從資本支出導向轉為營業成本導向,這會讓高效率的ASIC成為唯一可擴展的解決方式。 現在市場正在快速浮現耗電量過大的限制,目前AI資料中心的新款AI機櫃耗電量是傳統機櫃耗電量的十倍之多,電力問題會衝擊AI資料中心運作。還有GPU架構有能效瓶頸的問題,因為GPU本質上屬於通用型架構,運作上固然彈性高,卻也付出運作時會出現多於運算,以及記憶體不斷存取產生的效率浪費和延遲性問題。若以Groq這顆ASIC晶片為例,該款晶片使用SRAM(內建記憶體),能減少資料流的搬運以及管道化資料流的執行,就能大幅提高運作效率,並使用更低的瓦數和更低的每單位Token成本。
解決耗電問題 AI資料中心耗電量大是當前急需解決的問題。為了因應電力限制,在不需要運作量大的系統架構內減少使用GPU並改由ASIC取代,的確是解決耗電量大的方式之一。對大型CSP業者來說,現在不是買更多GPU,而是用更有效率的晶片。 LLM推論分兩段,資料運算部分適合GPU,但生成部分適合ASIC,所以Nvidia導入Groq,是GTC2026最重要的架構訊號,AI運算正式分工。還有在AI代理的關鍵需求上,未來的AI不是回答問題,而是代理做事、且持續互動。這環境需要穩定低延遲、長時間運行以及高效率等的要求。這就需ASIC的完美配合。AI產業正從「算力最大化」轉向「效率最佳化」,這都會讓ASIC從先前的輔助角色轉為核心基礎設施,使其滲透率不斷提升已成為不可逆的趨勢。 …本文摘錄自 先探投資週刊 2026/3月 第2397期
閱讀完整內容
解決耗電問題 AI資料中心耗電量大是當前急需解決的問題。為了因應電力限制,在不需要運作量大的系統架構內減少使用GPU並改由ASIC取代,的確是解決耗電量大的方式之一。對大型CSP業者來說,現在不是買更多GPU,而是用更有效率的晶片。 LLM推論分兩段,資料運算部分適合GPU,但生成部分適合ASIC,所以Nvidia導入Groq,是GTC2026最重要的架構訊號,AI運算正式分工。還有在AI代理的關鍵需求上,未來的AI不是回答問題,而是代理做事、且持續互動。這環境需要穩定低延遲、長時間運行以及高效率等的要求。這就需ASIC的完美配合。AI產業正從「算力最大化」轉向「效率最佳化」,這都會讓ASIC從先前的輔助角色轉為核心基礎設施,使其滲透率不斷提升已成為不可逆的趨勢。 …本文摘錄自 先探投資週刊 2026/3月 第2397期



