今年,諾貝爾物理學(xué)獎和化學(xué)獎均頒給了AI相關(guān)領(lǐng)域,被簡化為“AI4S”的AI for Science(AI用于科研)理念也受到了國內(nèi)外科學(xué)家們的重點(diǎn)關(guān)注。
11月4日至6日,2024科學(xué)智能峰會在北京大學(xué)召開,張錦、龔新高、湯超等中國科學(xué)院院士,以及多位有著AI科研實(shí)踐經(jīng)驗(yàn)的專家學(xué)者現(xiàn)場分享并探討了AI目前在科研上的具體應(yīng)用、AI在科研領(lǐng)域的局限性和待解決問題,以及AI for Science在未來可能對科學(xué)研究范式帶來的影響。
AlphaFold的成功只是“萬里長征第一步” 傳統(tǒng)AI框架仍有局限性
本屆諾貝爾化學(xué)獎得主哈薩比斯之所以獲獎,在于其開發(fā)了AlphaFold人工智能模型,這種模型解決了一個已有50年歷史的難題,能夠預(yù)測大約兩億種已知蛋白質(zhì)的復(fù)雜結(jié)構(gòu),并且已經(jīng)被全球200多萬人使用。而在中國科學(xué)院院士、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心主任湯超看來,AlphaFold的成功并不等于大生命科學(xué)領(lǐng)域的成功,這只是“萬里長征的第一步”。
中國科學(xué)院院士、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心主任湯超正在演講 新京報貝殼財經(jīng)記者羅亦丹/攝
湯超介紹,目前生命科學(xué)領(lǐng)域的大部分模型僅限于單一模態(tài),如單細(xì)胞轉(zhuǎn)錄、RNA序列、蛋白質(zhì)結(jié)構(gòu)等,但生命科學(xué)是一個復(fù)雜而龐大的系統(tǒng),生命科學(xué)的本質(zhì)是從分子、細(xì)胞、器官到整體生命的多層次、多維度交互構(gòu)成。
“生命是由宏觀到微觀多尺度多層次的復(fù)雜系統(tǒng),每個層次都有自己的語言和邏輯,相互影響。”湯超說,“傳統(tǒng)AI框架處理結(jié)構(gòu)化、線性數(shù)據(jù)表現(xiàn)優(yōu)異,但生命系統(tǒng)的數(shù)據(jù)具有動態(tài)性與多位交互復(fù)雜性,因此處理高緯度、非線性的生命科學(xué)數(shù)據(jù)時傳統(tǒng)AI框架就表現(xiàn)出了明顯的局限性。”
此外,即便是單一模態(tài)的AI研究,也需要良好的數(shù)據(jù)基礎(chǔ),而當(dāng)前一些科研領(lǐng)域面臨實(shí)驗(yàn)數(shù)據(jù)不足以及實(shí)驗(yàn)數(shù)據(jù)標(biāo)準(zhǔn)化不夠的問題。
湯超表示,生命科學(xué)數(shù)據(jù)體系建設(shè)起步晚、投入不足,缺乏完整的全鏈條生態(tài)系統(tǒng),前期缺乏系統(tǒng)化戰(zhàn)略規(guī)劃與共享機(jī)制,難以形成具有高影響力和稿子里的數(shù)據(jù)集,數(shù)據(jù)利用率落后于歐美。
中國科學(xué)院院士、北京大學(xué)黨委常委、副校長張錦則在介紹使用AI進(jìn)行材料研究時提到,當(dāng)前數(shù)據(jù)采集過程不統(tǒng)一,不同設(shè)備、環(huán)境、操作人員得到的數(shù)據(jù)有很大差異。此外,不同類型的實(shí)驗(yàn)生成的數(shù)據(jù)包括圖像、光譜數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù)等,格式不同。
而AI的建模、訓(xùn)練都需要大數(shù)據(jù)的支持,張錦表示,“標(biāo)準(zhǔn)化是實(shí)現(xiàn)數(shù)據(jù)共享、再現(xiàn)性和科學(xué)知識迭代的基礎(chǔ)。”
中國科學(xué)院院士、北京大學(xué)黨委常委、副校長張錦正在演講 新京報貝殼財經(jīng)記者羅亦丹/攝
在湯超看來,生命科學(xué)大模型框架研究亟待解決的問題包括:針對生命科學(xué)數(shù)據(jù)的特性,優(yōu)化序列、圖像和矩陣數(shù)據(jù)的編碼器設(shè)計;針對不同模態(tài)數(shù)據(jù)的融合,調(diào)整模塊架構(gòu)、數(shù)據(jù)集選擇及預(yù)訓(xùn)練策略。而真正能夠引起“革命性變化”是如何針對生命現(xiàn)象的語言邏輯、自組織、層級涌現(xiàn)、反饋機(jī)制、適應(yīng)性等構(gòu)建全新的模型架構(gòu)。
湯超介紹,生命科學(xué)的研究流程往往是:進(jìn)行實(shí)驗(yàn)觀測-模型擬合以解釋現(xiàn)象-總結(jié)性質(zhì)-預(yù)測行為-再進(jìn)行實(shí)驗(yàn)觀測的循環(huán),他認(rèn)為未來模型擬合或可以通過AI完成,“我們的目標(biāo)是構(gòu)建多模態(tài)、跨層次的生命科學(xué)大模型,最終希望能夠發(fā)現(xiàn)生命科學(xué)的新規(guī)律、新原理。”
AI革新研究范式:通過大量實(shí)驗(yàn)校準(zhǔn) 不再執(zhí)著于明確的“可解釋性”
雖然“AI4S”仍然存在不少需要解決的問題,但當(dāng)前,AI已經(jīng)在許多不同的科研領(lǐng)域均取得了成就,具體應(yīng)用除了上文中提到過與諾獎相關(guān)的AlphaFold外,還包括諸如DeepMind利用AI技術(shù)在核聚變-托克馬克裝置中控制等離子體形狀,F(xiàn)raphCast預(yù)測未來十天全球天氣并在90%的指標(biāo)上超越了人類系統(tǒng)HRES等。
此外,AI也加速了實(shí)驗(yàn)研究的進(jìn)程。張錦介紹,讓一名同學(xué)一天重復(fù)3組一樣的實(shí)驗(yàn)基本不可能,但通過自動化平臺做自動化實(shí)驗(yàn)一天可以做150組,極大提高了實(shí)驗(yàn)的重復(fù)性,而高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)是模擬訓(xùn)練的基礎(chǔ)。
中國科學(xué)技術(shù)大學(xué)講席教授江俊就介紹了其以及其團(tuán)隊(duì)使用中科大機(jī)器化學(xué)家平臺做實(shí)驗(yàn)的經(jīng)歷,通過他的視頻展示,新京報貝殼財經(jīng)記者注意到了這個有著全向移動底盤和智能械臂,長相酷似一個“會動的桌子”的全自主實(shí)驗(yàn)操作機(jī)器人。