小说阅读网站,古风君子以泽,怎样写网络小说

理工科 STEM 技能，是解決真實(shí)世界中諸多問(wèn)題的基礎(chǔ)。譬如，探索蛋白質(zhì)結(jié)構(gòu)、證明數(shù)學(xué)定理、發(fā)現(xiàn)新藥物等。（編者注：STEM，即科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科英文首字母的縮寫。）

而對(duì)于人工智能領(lǐng)域來(lái)說(shuō)，理解視覺(jué)-文本的多模態(tài)信息，則是掌握 STEM 技能的關(guān)鍵。

可是，現(xiàn)有的數(shù)據(jù)集主要集中在檢驗(yàn)?zāi)Ｐ徒鉀Q專家級(jí)別難題的能力上，難以反映模型在基礎(chǔ)知識(shí)方面的掌握情況。并且，其往往只考慮文本信息而忽略視覺(jué)信息，又或者只關(guān)注 STEM 中某單一學(xué)科的能力。

另外，由于缺少細(xì)粒度的信息，該領(lǐng)域的科學(xué)家也無(wú)法更好地分析與改進(jìn)神經(jīng)網(wǎng)絡(luò)模型存在的薄弱之處。

所以，模型在這種情況下生成的內(nèi)容，既無(wú)法讓人充分信任，又不能幫助指導(dǎo)未來(lái)模型開(kāi)發(fā)的方向。

更重要的是，由于缺乏和人類表現(xiàn)相關(guān)的數(shù)據(jù)，因此科學(xué)家也不可能獲取到更具實(shí)際意義的模型表現(xiàn)參考，嚴(yán)重阻礙了人工智能的健康發(fā)展。

為了攻克上述局限性，近期，來(lái)自北京大學(xué)和美國(guó)圣路易斯華盛頓大學(xué)的研究團(tuán)隊(duì)，不僅成功完成了首個(gè)多模態(tài) STEM 數(shù)據(jù)集的構(gòu)建，還在此基礎(chǔ)上實(shí)現(xiàn)對(duì)大語(yǔ)言模型與多模態(tài)基礎(chǔ)模型的評(píng)測(cè)。

結(jié)果發(fā)現(xiàn)，即使是目前最先進(jìn)的人工智能模型，其 STEM 基礎(chǔ)水平也存在較大的提升空間，尚不具備解決更有難度的現(xiàn)實(shí)問(wèn)題的能力。也就是說(shuō)，與人類智能相比，目前人工智能的水平還有一定差距。

科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)，加快人工智能實(shí)現(xiàn)進(jìn)程

圖丨綜合評(píng)測(cè)效果（來(lái)源：ICLR 2024）

近日，相關(guān)論文以《測(cè)量神經(jīng)網(wǎng)絡(luò)模型的視覺(jué)-語(yǔ)言理工科技能》（Measuring Vision-Language STEM Skills of Neural Models）為題收錄于 2024 國(guó)際表征學(xué)習(xí)大會(huì)（ICLR 2024，International Conference on Learning Representations 2024）上[1]。

據(jù)悉，該會(huì)議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開(kāi)。

STEM 數(shù)據(jù)集相關(guān)資源如下。

評(píng)測(cè)鏈接：
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁(yè)面：
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub：
https://github.com/stemdataset/STEM

北京大學(xué)博士研究生沈劍豪和袁野是共同第一作者，圣路易斯華盛頓大學(xué)王晨光助理教授和北京大學(xué)張銘教授擔(dān)任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學(xué)，導(dǎo)師是張銘教授。

圖丨相關(guān)論文（來(lái)源：ICLR 2024）

搭建 STEM 數(shù)據(jù)集，全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)理工科能力

據(jù)王晨光介紹，課題組在確定研究目標(biāo)和題目之后，便開(kāi)始著手收集數(shù)據(jù)。

一向擅長(zhǎng)于算法研究的團(tuán)隊(duì)成員，在面對(duì)爬蟲(chóng)編寫、數(shù)據(jù)清洗和去重等工作時(shí)不免有些犯難。盡管如此，他們還是迎難而上，設(shè)計(jì)了多種用于數(shù)據(jù)清洗和去重的規(guī)則，最終成功獲得了首個(gè)多模態(tài) STEM 數(shù)據(jù)集。

圖丨左起；王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan（來(lái)源：課題組）

值得一提的是，該數(shù)據(jù)集包含 448 個(gè) STEM 技能，共 1073146 道題目，是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

圖丨相關(guān)論文（來(lái)源：ICLR 2024）

接著，他們開(kāi)始針對(duì)數(shù)據(jù)集進(jìn)行評(píng)測(cè)與分析。

由于該數(shù)據(jù)集包含科目（科學(xué)、技術(shù)、工程、數(shù)學(xué)）、技能和年級(jí)三個(gè)維度標(biāo)簽，因此研究人員選擇從這三個(gè)維度切入，對(duì)每個(gè)維度的數(shù)據(jù)數(shù)量分布、問(wèn)題類型分布、問(wèn)題長(zhǎng)度分布等信息進(jìn)行了詳盡分析。

與此同時(shí)，他們也針對(duì)每個(gè)科目，按照 6:2:2 的比例，劃分了訓(xùn)練集、驗(yàn)證集與未公開(kāi)標(biāo)簽的測(cè)試集。

隨后，研究人員又設(shè)計(jì)了模型評(píng)測(cè)方案。

其中，在選擇評(píng)測(cè)指標(biāo)時(shí)，他們除了關(guān)注準(zhǔn)確率，還重點(diǎn)使用全球范圍內(nèi)最被認(rèn)可的在線習(xí)題網(wǎng)站之一（https://www.ixl.com/）的考試分?jǐn)?shù)。

后者是基于該網(wǎng)站千萬(wàn)用戶的真實(shí)考試成績(jī)得出的，與學(xué)生對(duì)知識(shí)的掌握程度呈正相關(guān)。當(dāng)分?jǐn)?shù)達(dá)到 90 以上（通常是小學(xué)生水平）時(shí)，就代表學(xué)生掌握了該技能。

“我們讓模型模仿考生在線答題，再將得到的考試分?jǐn)?shù)與真實(shí)人類的考試結(jié)果進(jìn)行比較。”王晨光表示。

這也正是該工作的一大亮點(diǎn)。原因在于，過(guò)去將人類的表現(xiàn)與人工智能做比較時(shí)，前者都是由相對(duì)較小的樣本（例如幾百到幾千人）總結(jié)出的，而該團(tuán)隊(duì)的結(jié)果卻是基于千萬(wàn)量級(jí)的數(shù)據(jù)得到的，可信度更高。

然后，在模型評(píng)測(cè)環(huán)節(jié)，研究人員選擇使用當(dāng)前主流的大基礎(chǔ)模型，包括 OpenAI 的多模態(tài) CLIP 模型，以及大語(yǔ)言模型 ChatGPT 的 GPT3.5-Turbo 版本。

前者根據(jù)模型判斷問(wèn)題選項(xiàng)與圖片的匹配程度來(lái)做出選擇，后者則利用字幕模型為圖片生成描述，并利用語(yǔ)言模型選擇回答。

“我們?cè)u(píng)測(cè)了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型，發(fā)現(xiàn)在 0 樣本的設(shè)置下，模型的錯(cuò)誤率很高。這表明現(xiàn)有模型無(wú)法直接真正地掌握這些知識(shí)。”王晨光表示。

進(jìn)一步地，他們又利用劃分出的訓(xùn)練數(shù)據(jù)集，對(duì) CLIP 模型進(jìn)行了微調(diào)，發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升，綜合準(zhǔn)確率從 54.4% 提升至 76.3%。不過(guò)，這離 90 分依然有一定差距。

除此之外，該課題組還對(duì)模型結(jié)果的各個(gè)側(cè)面進(jìn)行了分析。

具體來(lái)說(shuō)，首先，在年級(jí)層面，他們發(fā)現(xiàn)模型的測(cè)驗(yàn)分?jǐn)?shù)隨著題目所屬年級(jí)的升高而降低，這符合年級(jí)越高的題目難度就越高的預(yù)期。

圖丨測(cè)驗(yàn)分?jǐn)?shù)隨年級(jí)變化（來(lái)源：ICLR 2024）

其次，通過(guò)模型在不同技能上的評(píng)測(cè)表現(xiàn)，他們發(fā)現(xiàn)模型在抽象知識(shí)與復(fù)雜推理任務(wù)上的表現(xiàn)欠佳。

另外，過(guò)去的經(jīng)驗(yàn)表明，模型應(yīng)該對(duì)正確答案有著較高的預(yù)測(cè)置信度，這代表著模型的校準(zhǔn)度較好。

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過(guò)的模型，表現(xiàn)出了良好的校準(zhǔn)性，模型的置信度與準(zhǔn)確率呈現(xiàn)清晰的相關(guān)性。”王晨光說(shuō)。

另一方面，他們?cè)谘芯磕Ｐ鸵?guī)模與效果之間關(guān)系的過(guò)程中，也發(fā)現(xiàn)了清晰的正相關(guān)關(guān)系。

與此同時(shí)，他們還分析了模型表現(xiàn)與問(wèn)題長(zhǎng)度、問(wèn)題類型、選項(xiàng)數(shù)量等其它因素之間的關(guān)系，發(fā)現(xiàn)隨著問(wèn)題變長(zhǎng)、選項(xiàng)數(shù)量變多和樣例數(shù)量變少，模型的表現(xiàn)都會(huì)下降。

除此之外，他們也評(píng)估了準(zhǔn)確率與測(cè)驗(yàn)考試分?jǐn)?shù)這兩種指標(biāo)的相關(guān)性，發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關(guān)。

“最終，在整體的評(píng)價(jià)指標(biāo)上，我們確認(rèn)即使是微調(diào)過(guò)的模型，與人類對(duì)應(yīng)年級(jí)學(xué)生水平相比也有顯著差距。基于此，我們?nèi)匀恍枰獙ふ腋行У姆椒ǎ鼓Ｐ驼莆?STEM 知識(shí)技能。”王晨光說(shuō)。

圖丨與人類表現(xiàn)比較（來(lái)源：ICLR 2024）

嘗試推出更多評(píng)測(cè)大語(yǔ)言模型的數(shù)據(jù)集，加快通用人工智能實(shí)現(xiàn)的進(jìn)程

顯而易見(jiàn)，在該項(xiàng)研究中，STEM 數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。

它不僅有利于模型增強(qiáng) STEM 的基礎(chǔ)知識(shí)，還能幫助研究人員評(píng)估模型對(duì)于基礎(chǔ) STEM 技能掌握的程度，并通過(guò)細(xì)粒度的數(shù)據(jù)分析有針對(duì)性地改進(jìn)模型。

王晨光表示，他和團(tuán)隊(duì)期待該數(shù)據(jù)集可以進(jìn)一步推動(dòng)當(dāng)前多模態(tài)大模型的研究，朝著模型能夠充分理解 STEM 技能、解決真實(shí)場(chǎng)景下 STEM 問(wèn)題的目標(biāo)更進(jìn)一步。

并且，也希望發(fā)布的測(cè)試集可以作為評(píng)測(cè)人工智能基礎(chǔ)模型能力的標(biāo)準(zhǔn)評(píng)測(cè)之一，得到社區(qū)的廣泛使用。

“更重要的是，我們提供的與大規(guī)模人類（主要是小學(xué)生）真實(shí)水平的比較，可以作為未來(lái)模型開(kāi)發(fā)的目標(biāo)和參考，以加快通用人工智能目標(biāo)實(shí)現(xiàn)的進(jìn)程。”他說(shuō)。

目前，基于該數(shù)據(jù)集，該課題組已經(jīng)成功評(píng)測(cè)了神經(jīng)網(wǎng)絡(luò)模型在基礎(chǔ)教育中的理工科能力。

接下來(lái)，他們一方面計(jì)劃繼續(xù)收集數(shù)據(jù)，并嘗試推出諸如人文學(xué)科、社會(huì)學(xué)科等領(lǐng)域的數(shù)據(jù)集，以更好地評(píng)測(cè)大語(yǔ)言模型在其他關(guān)鍵學(xué)科上的能力。

在這方面值得關(guān)注的是，該團(tuán)隊(duì)最近已經(jīng)提出了一個(gè)新的社會(huì)學(xué)科數(shù)據(jù)集 Social，包含較大規(guī)模的文本評(píng)估數(shù)據(jù)，可用來(lái)評(píng)測(cè)大語(yǔ)言模型的社會(huì)學(xué)科基礎(chǔ)能力。

進(jìn)一步地，還設(shè)計(jì)了一種多智能體交互的方法，能夠增強(qiáng)大語(yǔ)言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

相關(guān)論文以《衡量大語(yǔ)言模型的社會(huì)規(guī)范》（Measuring Social Norms of Large Language Models）為題收錄于計(jì)算語(yǔ)言學(xué)協(xié)會(huì)北美分會(huì) 2024 年年會(huì)（NAACL 2024，2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics）上[2]。

據(jù)悉，該會(huì)議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開(kāi)。

另一方面，他們也打算通過(guò)研究模型在細(xì)粒度數(shù)據(jù)集上的表現(xiàn)，找出模型能力不足的部分，并研究如何改進(jìn)。

此外，還希望通過(guò)結(jié)合檢索的 RAG 方法、設(shè)計(jì)特殊的模型架構(gòu)和訓(xùn)練方法，來(lái)進(jìn)一步增強(qiáng)模型的基礎(chǔ)能力。

“我們相信，只有先在基礎(chǔ)理工科和文科領(lǐng)域?qū)崿F(xiàn)突破，扎實(shí)打好基礎(chǔ)，人工智能才有被進(jìn)一步應(yīng)用的可能性。”王晨光如是說(shuō)。

18无删减羞羞网站动漫-18未满禁止观看黄瓜视频-18岁以下禁止看很黄的视频-18岁免费网站-特级全黄一级毛片免费-特级全黄

科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)，加快人工智能實(shí)現(xiàn)進(jìn)程

每日福利更多>>