隨著AI服務從訓練導向轉向推論導向，營運成本成為企業決策核心，GPU高成本與高功耗限制逐漸顯現；通用型GPU架構難以滿足AI服務，都讓ASIC由輔助角色轉為核心基礎設施。

文●魏聖峰

A成本而自行研發的客製化晶片，如SIC原本是大型ＣＳＰ業者為了降低今Nvidia在GTC 2026宣布正式導入以Groq的LPU（語言處理單元）的ASIC推論架構，引發業界震撼，這將會讓ASIC在ＡＩ領域有關鍵性的轉折。過去Nvidia總認為，研發更強的ＧＰＵ將能主導未來的ＡＩ世界，或許因為ＧＰＵ的研發成本高，並出現部分瓶頸，現在還得需要低功耗、低延遲等的需求，這恐怕是ＧＰＵ短期內難以做到的事。現在的ＡＩ應用將從訓練轉向推論（Inference）以實際落地。在這個背景下，ASIC有機會從邊緣角色，轉變為ＡＩ基礎設施的一部分。

Groq是一家專注於ＡＩ推論的ASIC公司，核心產品是語言處理單元（ＬＰＵ），專門針對大語言模型（ＬＬＭ）的推理速度進行優化，強調低延遲與高吞吐量。與純統ＧＰＵ相比，Groq是完全不同的設計理念。在資料流導向架構上，ＧＰＵ採用通用運算架構，需要頻繁從外部記憶體（HBM）存取資料，而Groq透過大量內建SRAM、靜態排程和管道化（Pipline）資料流，讓資料可以在晶片內部流動，明顯降低延遲。接著是SRAM取代HBM，降低對HBM依賴，避免記憶體瓶頸和提供極低延遲。這對ＬＬＭ推論中的token-by-token生成非常重要。

Groq是ASIC晶片

Groq這款晶片並不適用在模型訓練，而是專注在即時對話、ＡＩ代理、程式生成以及邊緣ＡＩ應用上。它是一款為ＡＩ應用而生的晶片，而不是為訓練而設計的晶片。隨著ＬＬＭ逐步成熟，市場關鍵指標也隨之改變。不再只是算力，而是延遲（Latency）、能耗和單位成本等問題。ＧＰＵ在上述指標下，相較ASIC晶片的成本、能耗都來得高，且延遲不夠低，在ＡＩ應用上ＧＰＵ就不符合成本需求。這也讓過去Nvidia的ＧＰＵ獨大格局遭到自我顛覆，得靠導入Groq ASIC晶片方式，讓Nvidia的ＡＩ架構補上推論的缺口。

先前本刊曾介紹過Vera Rubin架構中的六大晶片平台，包含Vera CPU、Rubin GPU、DPU、NVLink、ConnectX NIC和記憶體HBM。

這些晶片分別掌管整個ＡＩ系統的控制、訓練、資料處理中心、高速互連、網路連結和記憶體等主要功能，代表Nvidia正從晶片供應商轉型為ＡＩ工廠架構提供者，Vera Rubin就是一座ＡＩ工廠。

現在出現一個問題，就是ＧＰＵ在進行資料叢集運作時，會需要向記憶體不斷地存取資料，這會造成記憶體有瓶頸並形成運作效率出現延遲現象。如果在ＡＩ應用端也採用這類ＧＰＵ時，將出現這類問題，並影響應用端的效率。再者，ＧＰＵ的價格較高，大型ＣＳＰ業者在他們的資料中心，在比較次要端或是應用端部分的運作，就採用自研ASIC晶片，降低建置成本是主要的理由。當Nvidia發現ＧＰＵ有上述瓶頸時，透過導入GroqASIC晶片來解決，主要用在即時推論生成（Decode），形成混合運算架構。這個架構下，ＧＰＵ負責大規模運算，ASIC負責高效率執行。

降低建置成本

過去黃仁勳對於ASIC晶片的評論，大致認為運作效率不如自家ＧＰＵ來得強，雖然能降低成本，卻可能在算力上輸一截，結果可能適得其反並喪失客戶算力的商機。黃仁勳這樣講到現在都沒錯，的確ASIC晶片運作效率不如ＧＰＵ強，但如果擺在次要的運算中心，因為這個次要運算中心不需要非常強大的ＧＰＵ算力，還能降低成本。隨著邊緣運算需求在未來ＡＩ應用上會扮演重要的角色，而邊緣運算中心的主流就會是ASIC晶片。這樣的趨勢，加上Nvidia採用Groq的ASIC晶片後，很可能就讓ASIC晶片在ＡＩ架構上浮上檯面。

很多大型ＣＳＰ業者早就在研發ASIC晶片，並已運用在自家資料中心上。ＣＳＰ業者自研ASIC晶片主要不是賣晶片，而是要降低自家資料中心的建置成本。谷歌研發ＴＰＵ系列、亞馬遜ＡＷＳ研發Trainium/Inferentia晶片，其中Trainium已來到第三代、微軟有MaiaAI晶片、Meta也有MTIA。這些ASIC都是用在特定功能需求上，與通用型ＧＰＵ不同。換句話說，每款ASIC晶片各有不通的功能且都不能被其他晶片所取代。由於ＣＳＰ對資料中心運作需求很大，更不願意過度依賴Nvidia的ＧＰＵ，所以自研ASIC晶片。

博通、Marvell需求ＩＰ龐大

因應ASIC強勁的需求，博通、Marvell科技有強大的ＩＰ資料庫，提供上述ASIC自研晶片的ＩＰ需求。甚至於通用型ＧＰＵ業者的超微，也看到ASIC客製化商機，推出ＡＩ加速器與半客製化解決方案。先前博通發布財報時，就指出該公司上季與ＡＩ相關業務年增率成長一○六％，Marvell科技也強調ＡＩ資料中心需求強勁帶動營運成長。博通、Marvell科技這裡所指的與ＡＩ相關業務，有一大半就是ASIC的ＩＰ需求。當ＡＩ晶片正在從標準化ＧＰＵ走向客製化ASIC時，ＣＳＰ自研的ASIC晶片和博通、Marvell科技就會變得越來越重要。

在ＡＩ商業模式下無法承受ＧＰＵ架構，這是最核心、最不可逆的驅動力。在二○二三年以前的ＡＩ架構以ＡＩ訓練為主，推論用量低，ＡＩ架構大多使用ＧＰＵ。隨著ＡＩ生成需求越來越多，從今年開始ＡＩ將以推論為主，因為推論的成本很高，這時ＡＩ架構將轉向ASIC。以大語言模型（ＬＬＭ）為例，訓練成本只有一次性成本支出，而推論成本則為持續性的成本支出，這就是推論成本會很高的理由。

以Nvidia GPU為例，每顆單價高達二∼四萬美元，單顆功耗超過七○○瓦，在推論使用時利用率不穩定。這會造成每單位token成本過高，而且無法支撐大規模ＡＩ服務（像Chatbot、代理）等的問題。相形之下，使用ASIC可以去除不必要的任務（就是去通用化），只專注單一任務（推論）。這樣的結果就能讓成本下降三∼八成之多，而且能源效率可以提升二∼十倍。今年金融市場常在意大型ＣＳＰ業者大量投資在ＡＩ資本支出上能有多少的報酬回收收益的問題，代表現在的ＡＩ產業將從資本支出導向轉為營業成本導向，這會讓高效率的ASIC成為唯一可擴展的解決方式。

現在市場正在快速浮現耗電量過大的限制，目前ＡＩ資料中心的新款ＡＩ機櫃耗電量是傳統機櫃耗電量的十倍之多，電力問題會衝擊ＡＩ資料中心運作。還有ＧＰＵ架構有能效瓶頸的問題，因為ＧＰＵ本質上屬於通用型架構，運作上固然彈性高，卻也付出運作時會出現多於運算，以及記憶體不斷存取產生的效率浪費和延遲性問題。若以Groq這顆ASIC晶片為例，該款晶片使用SRAM（內建記憶體），能減少資料流的搬運以及管道化資料流的執行，就能大幅提高運作效率，並使用更低的瓦數和更低的每單位Token成本。

解決耗電問題

ＡＩ資料中心耗電量大是當前急需解決的問題。為了因應電力限制，在不需要運作量大的系統架構內減少使用ＧＰＵ並改由ASIC取代，的確是解決耗電量大的方式之一。對大型ＣＳＰ業者來說，現在不是買更多ＧＰＵ，而是用更有效率的晶片。

ＬＬＭ推論分兩段，資料運算部分適合ＧＰＵ，但生成部分適合ASIC，所以Nvidia導入Groq，是GTC2026最重要的架構訊號，ＡＩ運算正式分工。還有在ＡＩ代理的關鍵需求上，未來的ＡＩ不是回答問題，而是代理做事、且持續互動。這環境需要穩定低延遲、長時間運行以及高效率等的要求。這就需ASIC的完美配合。ＡＩ產業正從「算力最大化」轉向「效率最佳化」，這都會讓ASIC從先前的輔助角色轉為核心基礎設施，使其滲透率不斷提升已成為不可逆的趨勢。

…本文摘錄自先探投資週刊 2026/3月第2397期

閱讀完整內容

Groq問世 ASIC趨勢無法擋

本文摘錄自‎