2025年3月10日,國內人工智能領軍企業智元科技在北京國家會議中心正式發布"智元啟元大模型(Genie Operator-1)",這是我國首個面向復雜物理世界的通用具身智能基座模型。該成果突破性地提出"Vision-Language-Latent-Action(ViLLA)"融合架構,標志著中國在通用人工智能領域取得重大技術躍遷。

圖片來源:智元機器人
重構人機交互范式 ViLLA架構實現多模態深度融合
區別于傳統單模態大模型,啟元模型通過三層異構神經網絡構建感知決策閉環:視覺模塊采用動態注意力機制處理環境信息,語言引擎集成多輪對話上下文記憶,而獨創的Latent Action空間則將抽象指令轉化為可執行的動作序列。在測試中,模型展現出跨場景任務遷移能力——面對"整理雜亂書桌"指令時,系統能自主規劃路徑、識別物品類別并完成精準抓取擺放,全程無需人工干預。
全場景落地加速 智能終端迎來革命性升級
基于啟元基座開發的具身智能終端已進入規模化測試階段。在工業質檢領域,搭載該模型的機械臂可將零件缺陷識別準確率提升至99.7%,同時將操作效率提高3倍;智能家居系統中,家庭服務機器人可通過三維語義理解實現"擦桌子時避開裝飾品"等精細化動作。更值得關注的是醫療護理場景,經過專業數據訓練的機器人已能協助完成導診分診、康復器械操作等專業任務,為老齡化社會提供解決方案。
產學研聯動構建生態壁壘
智元科技聯合清華大學、中科院自動化所等機構成立"具身智能聯合實驗室",計劃年內開放百萬級參數級的開源訓練框架。公司CEO李峰透露:"我們將持續投入超20億元研發資金,年內推出支持多國語言、適配主流硬件的開發者套件,與合作伙伴共建具身智能產業生態。"隨著國家"新一代人工智能發展規劃"的深入推進,智元科技此次突破或將加速我國在通用人工智能賽道上的國際競爭力。