在前天,國內(nèi)最高規(guī)格的AI產(chǎn)業(yè)盛會第七屆世界人工智能大會(WAIC 2024)開幕,展區(qū)已成“大模型”主場,各路玩家隔空斗法。
既有聞名業(yè)界的通用大模型大秀生成、理解能力,在金融、醫(yī)療等諸多領(lǐng)域施展拳腳的行業(yè)大模型,還有能直接部署在PC、服務(wù)器等邊緣設(shè)備的端側(cè)大模型效果驚艷。
可以看到從去年至今,大模型產(chǎn)業(yè)的發(fā)展焦點正在從技術(shù)突破向落地應(yīng)用外延。一方面,通用大模型表現(xiàn)驚艷,另一方面,距離用戶更近且性能已經(jīng)足夠強大的端側(cè)大模型呈現(xiàn)出規(guī)?;瘧?yīng)用潛力。
在這之中,隨著技術(shù)的成熟和應(yīng)用場景的拓展,端側(cè)大模型市場已經(jīng)成為AI領(lǐng)域的一個重要增長點,而端側(cè)大模型走向落地部署背后的一個關(guān)鍵角色就是底層芯片玩家。
WAIC上,一家清華系GPGPU創(chuàng)企的展臺上,我們看到其AI加速卡AzureBlade K340l已經(jīng)可以支撐大模型跑在AI PC等設(shè)備上,并已經(jīng)適配Llama 3-8B、Stable Diffusion、通義千問等開源模型。
這家創(chuàng)企的技術(shù)實力不容小覷。本月初,芯動力科技團隊聯(lián)手帝國理工、劍橋大學(xué)、清華大學(xué)、中山大學(xué)等頂尖學(xué)府的計算機架構(gòu)團隊,共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP芯片架構(gòu))成功被第51屆計算機體系結(jié)構(gòu)國際研討會(ISCA 2024)的Industry Track收錄。
據(jù)了解,Industry Track的錄取接收率僅為15.3%。同時,芯動力科技還受邀在ISCA 2024會議上發(fā)表演講,與Intel、AMD等國際知名企業(yè)同臺交流。
在WAIC上,我們可以看到以芯動力科技為代表的國內(nèi)AI芯片玩家,已經(jīng)亮出了諸多技術(shù)成果與案例演示,為端側(cè)大模型部署落地裝上了加速引擎。
01.
“六邊形戰(zhàn)士”RPP架構(gòu)
破局邊緣大模型落地
大模型加速落地應(yīng)用現(xiàn)在已經(jīng)成為共識,不過通用大模型很難理解企業(yè)的真實痛點,讓企業(yè)真正用上大模型實現(xiàn)降本增效是當前的重中之重。
但相比于面向消費者的AI工具,企業(yè)對于大模型能力的要求更高,除了大模型本身的性能表現(xiàn)需要足夠優(yōu)越外,還有更為重要的幾點就是數(shù)據(jù)安全、響應(yīng)夠快,這也是跑在云上的大模型缺少的。
因此邊緣大模型脫穎而出,因為邊緣設(shè)備距離企業(yè)的業(yè)務(wù)或者用戶本身距離更近,且能夠支持本地私有化部署保證用戶的數(shù)據(jù)安全。與此同時,底層的AI芯片就稱為AI落地邊緣端的必要條件。
這也導(dǎo)致邊緣大模型部署對AI加速卡的特性提出了更高要求。因為邊緣端往往只有一個獨立設(shè)備,因此就需要芯片需要同時兼顧體積小、性能強、功耗低。當下Llama系列、通義千問等開源模型,已經(jīng)在較小的參數(shù)規(guī)模下達到了較好的性能,能夠?qū)崿F(xiàn)很好的文升文、文生圖效果。這也為大模型在端側(cè)落地提供了機會。
還有更為重要的一點是,大模型的技術(shù)突破仍在不斷革新。為了讓大模型在資源有限的設(shè)備上部署,大模型量化部署精度正在從8bit向4bit支持,大模型的快速演變對芯片研發(fā)的長周期,大投入提出了不小的挑戰(zhàn)。
這些難題在對芯片的性能及靈活性提出不小挑戰(zhàn)的同時,也是大模型落地的必要條件。對于眾多專用芯片來講,這意味著需要開展全新的芯片設(shè)計工作,而對芯動力科技可重構(gòu)并行處理器架構(gòu)(RPP)來講,則僅需進行一次軟件開發(fā)即可。在面對邊緣大模型落地所面臨的難題時,芯動力科技的RPP架構(gòu)展現(xiàn)出其固有的天然優(yōu)勢。
在生成式AI日新月異的應(yīng)用場景中,唯一不變的就是變化本身。芯動力構(gòu)建的通用性生態(tài)決定了,未來若出現(xiàn)除Transformer以外的新型算法基底,RPP架構(gòu)將能夠迅速完成算法的兼容與優(yōu)化,而無需改變硬件架構(gòu)。這使得RPP架構(gòu)擁有更持久的生命力和更廣闊的市場前景。
RPP架構(gòu)是針對并行計算設(shè)計的芯片架構(gòu),芯動力將其稱作“六邊形戰(zhàn)士”。這一架構(gòu)既結(jié)合了NPU的高效率與GPU的高通用性優(yōu)勢,更具備DSP的低延時,可滿足高效并行計算及AI計算應(yīng)用,如圖像計算、視覺計算、信號處理計算等,大大提高了系統(tǒng)的實時性和響應(yīng)速度。
芯動力首款基于可重構(gòu)架構(gòu)的GPGPU芯片RPP-R8每顆芯片內(nèi)含有1024個計算核,相比傳統(tǒng)GPU架構(gòu)在同樣的算力占用更小的芯片面積,實現(xiàn)了低功耗和高能效的有效平衡。RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達到同類產(chǎn)品的7~10倍,能效比也超過3倍。