公眾號記得加星標??,第一時間看推送不會錯過。
在人工智能分散化的世界中,英偉達既可以是朋友,也可以是敵人。
人工智能的應用正迎來轉折點,其關注點從訓練新模型轉向服務現有模型。對于那些渴望從英偉達手中分一杯羹的人工智能初創公司來說,現在是千載難逢的機會。
與訓練相比,推理的工作負載更加多樣化,這為芯片初創公司開辟了新的市場空間。大規模批量推理所需的計算能力、內存和帶寬組合與人工智能助手或代碼代理截然不同。
因此,推理變得越來越多樣化,其中某些方面可能更適合 GPU 和其他更專業的硬件。
英偉達去年12月斥資200億美元收購Groq就是一個典型的例子。這家初創公司采用大量SRAM的芯片架構,這意味著只要數量足夠,Groq的LPU就能比任何GPU更快地生成代幣。然而,由于其有限的計算能力和老化的芯片技術,它們的擴展效率并不高。
Nvidia通過將推理管道中計算密集型的預填充部分轉移到其 GPU 來規避這個問題,同時將帶寬受限的解碼操作保留在其嶄新的 LPU 上。
這種組合并非英偉達獨有。GTC大會結束后一周,AWS也發布了自己的解耦計算平臺,該平臺使用其定制的Trainium加速器進行預填充,并使用Cerebras Systems的餐盤大小的晶圓級加速器進行解碼。
就連英特爾也加入了這場狂歡,宣布了一項參考設計,該設計將使用 GPU(大概是他們在去年北半球秋季預告的那款)進行預填充,并使用 AI 芯片初創公司 SambaNova 的新型 RDU進行解碼。
到目前為止,大多數人工智能芯片初創公司的成功都體現在解碼方面。SRAM雖然容量不大,但速度極快。因此,只要芯片數量足夠多,或者至少像Cerebras那樣使用足夠大的芯片,它們就非常適合加速解碼操作,但芯片初創公司的應用范圍并不局限于此。
本周,Lumai詳細介紹了其光學推理加速器,該加速器使用光而不是電子來執行大多數機器學習工作負載核心的矩陣乘法運算,而功耗僅為純數字架構的一小部分。
Lumai 預計其下一代 Iris Tetra 系統到 2029 年將在 10kW 的功率預算內實現 exaOPS 的 AI 性能。
從技術上講,這些芯片采用混合電光架構,但推理過程中大部分計算是由芯片的光張量核心處理的。
該公司最初將這款芯片定位為GPU的獨立替代方案,用于計算密集型推理工作負載,例如批量處理。從長遠來看,該公司還計劃將其光加速器用作預填充處理器。
該架構仍處于起步階段,目前能夠運行像 Llama 3.1 8B 或 70B 這樣的數十億參數模型,但它已經發展到足以讓這家總部位于英國的初創公司向云新用戶和超大規模用戶開放其芯片進行評估的程度。
話雖如此,并非所有人工智能芯片初創公司都熱衷于使用不同的芯片進行預填充和解碼。本周早些時候,Tenstorrent發布了基于 RISC-V 的 Galaxy Blackhole 計算平臺,該公司首席執行官 Jim Keller 對這種分散式推理方法并不感冒。
“業內每家公司都在聯手打造加速器的加速器。CPU 運行代碼,GPU 加速 CPU,TPU 加速 GPU,LPU 加速 TPU,以此類推。這導致了復雜的解決方案,而這些方案不太可能與 AI 模型和應用的變化兼容。在 Tenstorrent,我們認為更通用、更簡單的方案會更有效。”他在一份聲明中說道。
(來源:編譯自theregister)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4396內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.