用多大力氣可以打開一個(gè)柜子?”“撿起一個(gè)玩具從哪個(gè)角度可以放進(jìn)筐里?”這些我們?nèi)粘?雌饋砥狡綗o奇的操作,對(duì)機(jī)器人而言,卻是一件難事。機(jī)器人往往需要在數(shù)字世界的虛擬場(chǎng)景中,一次次操作和訓(xùn)練,才能在真實(shí)的現(xiàn)實(shí)世界中完成這些動(dòng)作。
作為新興的未來產(chǎn)業(yè),機(jī)器人產(chǎn)業(yè)鏈發(fā)展迎來了一輪新機(jī)遇。但技術(shù)快速迭代背后,人形機(jī)器人行業(yè)目前仍有一大痛點(diǎn):缺乏可交互三維數(shù)據(jù)。
生成式語言大模型豐富了人形機(jī)器人的大腦,但當(dāng)人形機(jī)器人走進(jìn)物理世界,對(duì)力量的感知、對(duì)溫度和氣味的識(shí)別,生成式語言大模型仍難以解決,對(duì)空間智能需求應(yīng)運(yùn)而生。斯坦福教授李飛飛提出,空間智能是機(jī)器人和AI的未來基石。
創(chuàng)業(yè)14年,杭州群核信息技術(shù)有限公司(以下簡稱群核科技)積累了3.62億個(gè)3D模型,空間設(shè)計(jì)平臺(tái)“酷家樂”為群核科技的空間智能沉淀了大量的三維可交互數(shù)據(jù),當(dāng)時(shí)代的風(fēng)口來到具身智能時(shí),給人形機(jī)器人做數(shù)字道場(chǎng)的群核科技,也開啟了空間智能的賽道角逐。
每日經(jīng)濟(jì)新聞《機(jī)器人產(chǎn)業(yè)鏈一線調(diào)研》第一期實(shí)地探訪群核科技,近距離了解機(jī)器人的數(shù)字道場(chǎng)是如何誕生的。
數(shù)字世界的訓(xùn)練道場(chǎng)
2月初,英偉達(dá)和卡耐基梅隆大學(xué)研究團(tuán)隊(duì)研發(fā)的ASAP新框架運(yùn)用在宇樹機(jī)器人上,成功模仿了科比投籃的動(dòng)作,令網(wǎng)友驚奇。但細(xì)看ASAP新框架,要復(fù)現(xiàn)科比的經(jīng)典投籃動(dòng)作,離不開機(jī)器人在模擬環(huán)境中的訓(xùn)練:第一階段,研究團(tuán)隊(duì)使用經(jīng)過調(diào)整的人類運(yùn)動(dòng)數(shù)據(jù)在模擬環(huán)境中預(yù)訓(xùn)練運(yùn)動(dòng)跟蹤策略;第二階段,將這些策略應(yīng)用到真實(shí)世界,并收集真實(shí)數(shù)據(jù)來訓(xùn)練一個(gè)“殘差”動(dòng)作模型,用來彌補(bǔ)模型與真實(shí)世界物理動(dòng)態(tài)之間的差距。
“目前的人形機(jī)器人(在)運(yùn)動(dòng)控制和小腦技術(shù)(方面),基本處于領(lǐng)先地位,但(在)機(jī)器人智能化開發(fā)過程中,數(shù)據(jù)往往是瓶頸,所以需要利用海量可交互三維數(shù)據(jù)集做機(jī)器人的訓(xùn)練道場(chǎng),提升機(jī)器人的大腦能力。”群核科技首席科學(xué)家唐睿向《每日經(jīng)濟(jì)新聞》記者介紹,目前可交互的三維數(shù)據(jù)是制約人形機(jī)器人發(fā)展的瓶頸之一。
人形機(jī)器人的大腦主導(dǎo)上層的邏輯推理、決策、規(guī)劃,以及用自然語言來和其他智能體、環(huán)境進(jìn)行交流。“小腦”更多關(guān)注機(jī)器人的運(yùn)動(dòng)控制和平衡調(diào)節(jié)。人工智能技術(shù)的突破,讓人形機(jī)器人擁有了更“聰明”的大腦。
然而,光有數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠,機(jī)器人還需要在數(shù)字世界里訓(xùn)練,進(jìn)行學(xué)習(xí)強(qiáng)化。唐睿提到要做好機(jī)器人數(shù)字世界的訓(xùn)練道場(chǎng),有兩個(gè)非常核心的要素:首先,虛擬世界的數(shù)據(jù)是不是足夠物理正確;其次,仿真的虛擬空間,是否足夠接近真實(shí)世界。
“譬如我們做光線追蹤,在虛擬世界中要模擬真實(shí)世界的光線傳播,而在虛擬世界里,通過物理仿真引擎,要盡可能計(jì)算還原光線的仿真表現(xiàn)。”在唐??磥?,要在數(shù)字世界中還原真實(shí)的物理世界,如何保障數(shù)據(jù)的高精度和高準(zhǔn)確性是空間智能的關(guān)鍵。
群核空間智能平臺(tái)(SpatialVerse)是唐睿帶領(lǐng)團(tuán)隊(duì)構(gòu)建的一套空間智能解決方案,專為通過逼真的虛擬模擬訓(xùn)練復(fù)雜模型而設(shè)計(jì),由于全球范圍內(nèi)具備物理正確屬性的室內(nèi)空間數(shù)據(jù)非常稀少,群核空間智能平臺(tái)的合成虛擬數(shù)據(jù)生成能力吸引了硅谷等全球科技巨頭們的主動(dòng)合作。
一封陌生海外郵件叩開“空間智能”大門
根據(jù)群核科技招股書(申報(bào)稿),截至2024年年底,群核科技已經(jīng)擁有超過3.62億個(gè)3D模型,其平臺(tái)上平均每月有8630萬活躍訪問者。公司是全球最大的空間設(shè)計(jì)平臺(tái),平臺(tái)合作客戶超4.5萬家,服務(wù)覆蓋200多個(gè)國家和地區(qū)。
這份數(shù)據(jù)的積累,和空間設(shè)計(jì)平臺(tái)“酷家樂”密不可分。群核科技創(chuàng)始人黃曉煌等人最開始的創(chuàng)業(yè)方向是“用GPU(圖形處理器)做云端的圖形圖像快速渲染”,最終的一大技術(shù)應(yīng)用場(chǎng)景是在空間設(shè)計(jì)軟件“酷家樂”上。
從53秒減少至1.2秒,這是“酷家樂”處理一張典型2K圖像GPU渲染的最新速度。不少買房裝修的業(yè)主體驗(yàn)過“酷家樂”的空間設(shè)計(jì)功能,但其實(shí)空間設(shè)計(jì)的概念并不新鮮。當(dāng)創(chuàng)新敘事追逐賽博霓虹,隨著時(shí)間和實(shí)踐的積累,留存下來的物理正確的三維數(shù)據(jù),在現(xiàn)實(shí)的反復(fù)捶打中,又再次為機(jī)器人注入靈魂覺醒的生存韌性。
3.62億個(gè)3D模型及空間設(shè)計(jì)元素,是“酷家樂”積累下來的數(shù)據(jù),正是得益于家裝場(chǎng)景空間設(shè)計(jì)的大量實(shí)踐和應(yīng)用數(shù)據(jù),群核科技才從空間設(shè)計(jì)平臺(tái)邁向空間智能賽道。
2017年,群核科技的科研團(tuán)隊(duì)一直在批判性反思,為什么群核積累的大量高逼真三維交互數(shù)據(jù)僅能應(yīng)用于家裝場(chǎng)景中,還有沒有其他應(yīng)用價(jià)值?
還有沒有其他可能?這個(gè)問題一直在群核科技的科研團(tuán)隊(duì)中反復(fù)出現(xiàn),在還沒有想到更多可能性之前,他們聯(lián)合國外知名高校進(jìn)行了一次科研合作。
2018年,群核科技和帝國理工學(xué)院、南加利福尼亞大學(xué)展開了一項(xiàng)科研合作:發(fā)布全球最大的室內(nèi)場(chǎng)景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集InteriorNet。
誰也沒想到,這份在家裝領(lǐng)域積累的室內(nèi)設(shè)計(jì)數(shù)據(jù),因?yàn)橐环饽吧]件,為群核打開了一個(gè)全新的賽道。
2019年的一天,公司某位算法工程師打開郵箱時(shí),一度懷疑自己收到了詐騙郵件。在這封全英文的郵件里,硅谷某家家喻戶曉的萬億級(jí)硬件巨頭主動(dòng)向當(dāng)時(shí)名不見經(jīng)傳的群核科技發(fā)出了合作邀約。彼時(shí),該巨頭正苦于缺乏大量物理正確的合成數(shù)據(jù)做機(jī)器人訓(xùn)練,而當(dāng)他們?cè)趯ふ疫@方面數(shù)據(jù)時(shí),群核科技此前聯(lián)合發(fā)布的InteriorNet數(shù)據(jù)集吸引了他們的目光,因此發(fā)來郵件尋求合作。
盡管一度被認(rèn)為是詐騙郵件,但再三確認(rèn)后,雙方很快達(dá)成合作,群核科技的數(shù)據(jù)集也第一次應(yīng)用在了空間智能訓(xùn)練上。
唐睿發(fā)現(xiàn),這一次國內(nèi)企業(yè)和國外企業(yè)并不存在認(rèn)知代差。有了第一次合作之后,國外和國內(nèi)的不少機(jī)器人企業(yè)也紛紛找來尋求合作。“AI行業(yè)的出海,我們和國外不存在認(rèn)知代差。以往國外用戶可能會(huì)存在認(rèn)知屏障,譬如談及汽車產(chǎn)業(yè),海外用戶會(huì)對(duì)德國制造和日本汽車有強(qiáng)認(rèn)知,但AI是全新的技術(shù),用戶的刻板成見還未形成,國內(nèi)在AI領(lǐng)域甚至具備領(lǐng)先優(yōu)勢(shì)。”唐睿表示。
圖片來源:每經(jīng)記者 張韻 攝
機(jī)器人的未來基石:道阻且長
在“GTC2025全球大會(huì)”上,群核科技宣布開源其自主研發(fā)的空間理解模型SpatialLM。該模型僅通過一段視頻即可生成物理正確的3D場(chǎng)景布局。據(jù)了解,SpatialLM突破了傳統(tǒng)大語言模型對(duì)物理世界幾何與空間關(guān)系的理解局限,讓機(jī)器具備空間認(rèn)知與推理能力,將為具身智能等相關(guān)領(lǐng)域提供空間理解基礎(chǔ)訓(xùn)練框架。據(jù)悉,該模型接下來還將迭代自然語言和場(chǎng)景交互功能。
當(dāng)前,群核科技的三大核心技術(shù)能力主要在于專門構(gòu)建的GPU高性能計(jì)算集群、以多模態(tài)CAD大模型為代表的空間認(rèn)知理解技術(shù)以及結(jié)構(gòu)化合成虛擬數(shù)據(jù)生成。
在空間智能領(lǐng)域,群核科技希望搭建數(shù)字仿真與物理現(xiàn)實(shí)之間的橋梁,但要架起這樣一座橋梁,有許多看不見、摸不著的難點(diǎn)。“比如說空氣流體力學(xué)的仿真,我們現(xiàn)在在數(shù)字世界還做不到。”但AI的技術(shù)變革正在以非線性的速度推進(jìn),唐睿發(fā)現(xiàn)他很難預(yù)判未來幾年空間智能的發(fā)展速度。“GPT、視頻和圖像等多模態(tài)人工智能技術(shù)的發(fā)展,顛覆了我對(duì)科技發(fā)展以往的認(rèn)知。保守估計(jì)的話,預(yù)計(jì)3~5年內(nèi),空間智能會(huì)快速落地到泛娛樂或者消費(fèi)級(jí)的應(yīng)用中去。未來10年內(nèi),空間智能有望在工業(yè)領(lǐng)域獲得巨大的成就。在具身智能領(lǐng)域,空間智能數(shù)據(jù)能夠幫助機(jī)器人加速智能化。”
近50%的研發(fā)投入占比、80%左右的毛利率,“酷家樂”成為群核科技最主要的營收來源,可群核科技目前仍暫時(shí)處于虧損狀態(tài)。不過,有分析認(rèn)為前沿科技企業(yè)前期的技術(shù)研發(fā)投入會(huì)比較大,后期隨著技術(shù)商業(yè)化落地,邊際成本會(huì)逐漸大幅降低。
投資未來,是群核科技目前重倉的一件事情。
科技的競(jìng)爭,核心還在于人才的競(jìng)爭,所以群核科技加大了人才儲(chǔ)備力度。
2月底,群核科技發(fā)布“星核人才計(jì)劃”,招募崗位覆蓋多模態(tài)大模型與AIGC(人工智能生成內(nèi)容)研究、Sim2Real與具身智能研究、AI驅(qū)動(dòng)的圖形渲染引擎研究方向、三維幾何算法與造型平臺(tái)研究、智能空間設(shè)計(jì)領(lǐng)域研究等。
最高百萬元級(jí)別的薪酬待遇,加之杭州“六小龍”的曝光效應(yīng),招聘信息發(fā)布后,群核科技迅速吸引了眾多優(yōu)質(zhì)高校的畢業(yè)生。公司擁有615名研發(fā)人員,占員工總數(shù)的44.3%。創(chuàng)始團(tuán)隊(duì)中,群核科技多位高管畢業(yè)于名校。
獨(dú)木難成林,在杭州創(chuàng)業(yè)的群核科技,也成為杭州全力打造人工智能全產(chǎn)業(yè)鏈的代表企業(yè)之一。從生態(tài)體系來看,梁文峰創(chuàng)辦的DeepSeek大模型,打開了“用算法換算力”的新路徑,帶來了國內(nèi)開源生態(tài)的大繁榮;宇樹科技、云深處等機(jī)器人企業(yè)受益于大模型技術(shù)的進(jìn)步,迭代速度加快;群核科技的空間智能則在一定程度上彌補(bǔ)了機(jī)器人三維數(shù)據(jù)的匱乏。在杭州的城市物理空間上,這些企業(yè)構(gòu)筑了一個(gè)彼此咬合的生態(tài)系統(tǒng)。
流量和高曝光,帶來了耀眼的光環(huán)。對(duì)群核科技來說,它需要用更多的能力證明自身價(jià)值。
公司爆紅之后,唐睿既高興又倍感壓力:“這個(gè)世界變化得太快了。所以進(jìn)一步地堅(jiān)定了我們的團(tuán)隊(duì)理念:和有批判視角、有活力的小伙伴們一起工作,一起創(chuàng)新。”
他覺得群核還遠(yuǎn)遠(yuǎn)不能滿足于現(xiàn)狀,科研團(tuán)隊(duì)更需要具備批判性的思維進(jìn)行自我批判,發(fā)揮創(chuàng)造性思維改變自己、改變行業(yè)。
唐睿說:“我們希望擊敗我們的,是我們自己,而不是其他人。