聯(lián)想今日宣布,旗下首款 AMD AI 大模型訓(xùn)練服務(wù)器——聯(lián)想問天 WA7785a G3在單機(jī)部署671B(滿血版) DeepSeek 大模型時(shí),實(shí)現(xiàn)了高達(dá)6708token/s 的極限吞吐量,再次刷新了單臺服務(wù)器運(yùn)行超大規(guī)模模型性能的紀(jì)錄。
據(jù)介紹,此次性能突破得益于聯(lián)想萬全異構(gòu)智算平臺的強(qiáng)大支持。聯(lián)想通過訪存優(yōu)化、顯存優(yōu)化、創(chuàng)新的 PCIe5.0全互聯(lián)架構(gòu)以及精選 SGLang 框架中的最優(yōu)算子等一系列創(chuàng)新技術(shù)手段,對大模型從預(yù)訓(xùn)練、后訓(xùn)練到推理的全流程進(jìn)行了持續(xù)優(yōu)化。實(shí)測結(jié)果顯示,在單臺部署 DeepSeek671B 大模型的聯(lián)想問天 WA7785a G3服務(wù)器上,最高吞吐量達(dá)到了驚人的6708token/s。

圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
在模擬問題對話場景(上下文序列長度128/1K)時(shí),該服務(wù)器最高可支持158的并發(fā)數(shù),TPOT(Time Per Output Token)為93毫秒,TTFT(Time To First Token)為2.01秒;而在模擬代碼生成場景(上下文序列長度512/4K)時(shí),并發(fā)數(shù)可達(dá)140,TPOT 為100毫秒,TTFT 為5.53秒。聯(lián)想方面表示,這一性能表現(xiàn)意味著單臺聯(lián)想問天 WA7785a G3服務(wù)器即可支撐1500人規(guī)模企業(yè)的正常使用,是繼聯(lián)想問天 WA7780G3服務(wù)器單機(jī)部署滿血版 DeepSeek 大模型總吞吐量突破2500token/s 之后,在單機(jī)部署該大模型推理性能上的又一次重大飛躍。
聯(lián)想方面強(qiáng)調(diào),此次技術(shù)突破是聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群、聯(lián)想研究院 ICI 實(shí)驗(yàn)室和 AMD 聯(lián)合設(shè)計(jì)、協(xié)同調(diào)優(yōu)、共同實(shí)現(xiàn)的成果。同時(shí),這并非最終結(jié)果,聯(lián)想與 AMD 仍在持續(xù)探索深度調(diào)優(yōu)的新方法,以期實(shí)現(xiàn)更高的性能突破