繼“大模型”之后,具身智能被業界認為將掀起人工智能領域的下一個浪潮。
日前,在北京市科學技術協會主辦的“互聯網3.0:未來互聯網產業發展論壇”上,北京航空航天大學機器人研究所名譽所長、中關村智友研究院院長王田苗提出,具身智能正在邁向“奇點”時刻,他預測到2035年,具身智能將達到380億美元的市場規模。不過在此之前,還需要解決一系列技術挑戰。
具身智能,是人工智能在物理世界的進一步延伸。它是實現思考、感知、行動三者有機智能融合的機器或系統,既具有人機交互與自然語言理解的能力,同時又可以通過感知、認知、決策與時變環境及對象進行實時校準互動,協助人完成相應的決策與行動任務。
王田苗介紹,近五年來,一些重要的科技進展為具身智能的發展提供了有利條件,諸如大模型實現了語義邏輯推理,使機器人執行復雜任務成為可能;人形機器人的結構、電機驅動、視覺感知等有了突破,使機器人有望在制造業、商業、危險作業、家庭養老等領域發揮作用;腦機接口技術通過對腦電信號進行編解碼,可以助力殘疾人實現對外部設備的控制,這些進展已經將具身智能推向了技術爆發的門口。但他也毫不諱言地指出,當前,機器人在很多環境下還比較“智障”,不能理解場景需求,也無法排除干擾。
所以,人們試圖用“感知大模型”提高機器人在現實中的智能水平,試圖給各類機器人裝上一個通用的“大腦”。這在咨詢對話型具身智能上可以看到一定進展,不少人已經在酒店、展覽等場景下體驗過。但是,這類“具身智能”還不能自主地行動和勞動,而要取得實質性突破,在王田苗看來,還需要攻破一些難題。
“我們已經在語言、視覺大模型上取得了進展,但在機器人領域還未找到類似的模型。而機器人大模型的突破,才能為通用人工智能機器人的研發奠定基礎。”王田苗說。
他說,從進化的角度來看,如何協調語言認知智能、行為智能和視覺智能等三個計算空間,并高效地利用真實、優質、海量的數據,也還需要突破。
如果突破了這些技術瓶頸,具身智能可能最先從哪些場景落地?
據王田苗了解,人們確實呼喚具身智能在不同場景上應用。但目前學術界和工業界的共識是,具身智能的目的是提高生產力,不是為了替代人類的工作,未來其主要應用場景可能更多聚焦于那些人類不愿做或難以勝任的任務。
他認為,學術界思考的是從解決復雜需求入手,而工業界強調生產的效率。為此,具身智能的應用可能會先從商務場景開始,包括物流、低空經濟等。此外,農業勞作以及工業場景中的危險化工、核工業等也可能會較早落地。他說:“最后才有可能走向家庭,因為走向家庭涉及安全問題、成本問題、倫理問題等。”