DeepSeek本地化部署是當下熱門的應用方式,它除了可以避免服務器繁忙之外,本地化運行還能夠極大程度保護用戶的隱私。
目前DeepSeek有眾多版本,其中模型容量差距可達數十倍,到底該如何選擇適合自己硬件的版本來部署,一直是用戶比較頭疼的問題。
今天我們就使用RTX 5090 D、RTX 5080、RTX 5070 Ti以及RTX 5070,共4張RTX 50系顯卡來實測一下,不同顯卡之間的性能差距。
首先介紹一下測試平臺,除了本次測試的4張顯卡,處理器選擇AMD R7 9800X3D,內存為48GB DDR5 6000MHz。
關于本地部署的步驟這里不再過多講解, 有興趣的用戶可以翻看我們此前的文章。
測試使用LM Studio,無加速框架進行對比,完全憑借顯卡自身算力。畢竟不同加速框架對不同廠商的顯卡優化不同,測試變量太大。
這里我們首先選擇【DeepSeek R1 Distill Qwen 32B】模型。
將GPU卸載拉滿,這意味著DeepSeek模型將完全由GPU進行計算,其他參數默認即可。由于AI模型每次回答都會有所區別,這里設置3個問題,取平均值。
另外需要注意的是,我們設置的問題本身框定了范圍,讓AI在思考回答時不會過于發散。如果問“什么是哲學”這類無范圍的問題,每次回答的結果將無法量化。
在32B模型中,可以看到RTX 5090 D的tok/sec還是很快的,畢竟作為本代旗艦產品,32GB大顯存本就適合AI訓練。
但在RTX 5080進行測試時便出現了問題,可以看到RTX 5080在回答問題時,思考時間達到了348秒,也就是將近6分鐘。