18无删减羞羞网站动漫-18未满禁止观看黄瓜视频-18岁以下禁止看很黄的视频-18岁免费网站-特级全黄一级毛片免费-特级全黄

首頁 > 生活分享 > 免費(fèi)教學(xué) > “喂”給人工智能的真實(shí)數(shù)據(jù)終將耗盡 合成數(shù)據(jù)能否讓AI模型精確可靠?

“喂”給人工智能的真實(shí)數(shù)據(jù)終將耗盡 合成數(shù)據(jù)能否讓AI模型精確可靠?

發(fā)布時間:2025-01-23 17:17:58來源: 13041198719

人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:“在AI訓(xùn)練中,我們現(xiàn)在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實(shí)數(shù)據(jù)將在2到8年內(nèi)消耗殆盡。鑒于真實(shí)數(shù)據(jù)日益稀缺,為滿足AI的“胃口”,科技行業(yè)正轉(zhuǎn)向使用合成數(shù)據(jù)。

澳大利亞“對話”網(wǎng)站在本月稍早時間報道中指出,合成數(shù)據(jù)具有諸多優(yōu)勢,但過度依賴合成數(shù)據(jù)也可能削弱AI的精確性和可靠性。

合成數(shù)據(jù)應(yīng)運(yùn)而生

以往,科技公司主要依賴真實(shí)數(shù)據(jù)來構(gòu)建、訓(xùn)練和改進(jìn)AI模型。真實(shí)數(shù)據(jù)是指由人類創(chuàng)建的文本、視頻和圖像。它們通過調(diào)查、實(shí)驗(yàn)、觀察或挖掘網(wǎng)站和社交媒體等途徑被收集而來。

真實(shí)數(shù)據(jù)因蘊(yùn)含真實(shí)事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關(guān)的內(nèi)容,甚至潛藏嚴(yán)重偏見,導(dǎo)致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。

但真實(shí)數(shù)據(jù)日益匱乏,因?yàn)槿祟惿蓴?shù)據(jù)的速度趕不上AI不斷增長的需求。

美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機(jī)器學(xué)習(xí)會議上聲稱,AI行業(yè)已觸及他所稱的“數(shù)據(jù)峰值”,AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機(jī)。此外,有研究預(yù)測,到2026年,ChatGPT等大型語言模型的訓(xùn)練將耗盡互聯(lián)網(wǎng)上所有可用文本數(shù)據(jù),屆時將沒有新的真實(shí)數(shù)據(jù)可供使用。

為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實(shí)世界情況的數(shù)據(jù)——合成數(shù)據(jù)應(yīng)運(yùn)而生。合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,而非從現(xiàn)實(shí)世界收集或測量而來。它可以作為真實(shí)世界數(shù)據(jù)的替代品,來訓(xùn)練、測試、驗(yàn)證AI模型。

從理論上來說,合成數(shù)據(jù)為訓(xùn)練AI模型提供了一種經(jīng)濟(jì)高效且快捷的解決方案。它有效解決了AI訓(xùn)練使用真實(shí)數(shù)據(jù)時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數(shù)據(jù)等敏感信息時。更重要的是,與真實(shí)數(shù)據(jù)不同,合成數(shù)據(jù)在理論上可以無限供應(yīng)。

研究機(jī)構(gòu)高德納公司估計,2024年AI及分析項(xiàng)目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。到2030年,AI模型使用的絕大部分?jǐn)?shù)據(jù)將是由AI生成的合成數(shù)據(jù)。

科技公司來者不拒

事實(shí)上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經(jīng)開始廣泛使用合成數(shù)據(jù)來訓(xùn)練其AI模型。

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數(shù)據(jù)攜手真實(shí)數(shù)據(jù)訓(xùn)練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數(shù)據(jù),開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預(yù)訓(xùn)練階段,也大量使用了合成數(shù)據(jù)。

隨著科技公司對合成數(shù)據(jù)的需求與日俱增,生產(chǎn)合成數(shù)據(jù)的工具也接踵而至。

英偉達(dá)公司發(fā)布的3D仿真數(shù)據(jù)生成引擎Omniverse Replicator,能夠生成合成數(shù)據(jù),用于自動駕駛汽車和機(jī)器人訓(xùn)練。去年6月,英偉達(dá)開源了Nemotron-4340b系列模型,開發(fā)者可使用該模型生成合成數(shù)據(jù),用于訓(xùn)練大型語言模型,以應(yīng)用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領(lǐng)域,該模型能夠根據(jù)特定需求生成高質(zhì)量的合成數(shù)據(jù),幫助構(gòu)建更為精準(zhǔn)的行業(yè)專屬模型。微軟推出的開源合成數(shù)據(jù)工具Synthetic Data Showcase則旨在通過生成合成數(shù)據(jù)和用戶界面,實(shí)現(xiàn)隱私保護(hù)的數(shù)據(jù)共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數(shù)十萬張自動標(biāo)記的合成圖像。

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數(shù)據(jù)的成本。

過度依賴風(fēng)險難測

盡管合成數(shù)據(jù)暫時解決了AI訓(xùn)練的燃眉之急,但它也并非盡善盡美。

一個關(guān)鍵問題在于:當(dāng)AI模型過于依賴合成數(shù)據(jù)時,它們可能會“崩潰”。它們會產(chǎn)生更多“幻覺”,編造看似合理可信但實(shí)際上并不存在的信息。而且,AI模型的質(zhì)量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數(shù)據(jù)出現(xiàn)了一些拼寫錯誤,利用這些充滿了錯誤的數(shù)據(jù)訓(xùn)練其他模型,這些AI模型必定會“以訛傳訛”,導(dǎo)致更大的錯誤。

此外,合成數(shù)據(jù)也存在過于簡單化的風(fēng)險。它可能缺乏真實(shí)數(shù)據(jù)集蘊(yùn)含的細(xì)節(jié)和多樣性,這可能導(dǎo)致在其上訓(xùn)練的AI模型的輸出也過于簡單,缺乏實(shí)用性。

為解決這些問題,國際標(biāo)準(zhǔn)化組織需要著手創(chuàng)建強(qiáng)大的系統(tǒng),來跟蹤和驗(yàn)證AI訓(xùn)練數(shù)據(jù)。此外,AI系統(tǒng)可以配備元數(shù)據(jù)追蹤功能,讓用戶或系統(tǒng)能對合成數(shù)據(jù)進(jìn)行溯源。人類也需要在AI模型的整個訓(xùn)練過程中對合成數(shù)據(jù)進(jìn)行監(jiān)督,以確保其高質(zhì)量且符合道德標(biāo)準(zhǔn)。

AI的未來在很大程度上取決于數(shù)據(jù)的質(zhì)量,合成數(shù)據(jù)將在克服數(shù)據(jù)短缺方面發(fā)揮越來越重要的作用。對合成數(shù)據(jù)的使用,人們必須保持謹(jǐn)慎態(tài)度,盡量減少錯誤,確保其作為真實(shí)數(shù)據(jù)的可靠補(bǔ)充,從而保障AI系統(tǒng)的準(zhǔn)確性和可信度。

免費(fèi)教學(xué)更多>>

綜合優(yōu)惠2.8萬,特斯拉,又打響價格戰(zhàn)第一槍? 特斯拉副總裁解析新Model Y舒適度升級:新增頻率響應(yīng)閥系 如何挑選適合你的電競顯示器? #電競顯示器 機(jī)器人“七劍客”涌現(xiàn),凸顯廣東智造厚實(shí)“家底” 國內(nèi)外人形機(jī)器人利好頻出,產(chǎn)業(yè)化進(jìn)程有望不斷加速 詳細(xì)的主流AI軟件及各自特點(diǎn),可分享收藏。 深度解析短視頻行業(yè)的崛起與未來 2025年濟(jì)南樓市買房指南:部分新房可能漲價,二手房繼續(xù)調(diào)整! 樓市“閉麥”時代:2025年,誰在傾聽未來的聲音? DeepSeek預(yù)測:未來10年房價會漲還是跌?這些信號已出現(xiàn)! vivo太拼了!6000mAh+OIS光學(xué)防抖,“32GB運(yùn)存”手機(jī)才賣1669元 喜歡拍照,vivo X200 Pro和X200 Pro mini怎么選? 票房突破58億 《哪吒2》或與手機(jī)廠商聯(lián)名 難道是榮耀? 一加果斷清倉,從3199降至2199,能秒殺紅米K80? 2024全球前十大手機(jī)廠商:華為增速第一 蘋果超三星 給父母買手機(jī),選紅米Turbo 3還是Note14 Pro? 相機(jī)拍出來的照片必須要修嗎?什么情況下不需要修圖? 20年前的索尼WalkMan手機(jī),海鮮市場還能賣到100多塊? 吉田修平回顧31年執(zhí)掌PlayStation歷程兩大驚恐時刻 真我neo7的優(yōu)缺點(diǎn)及推薦程度,來看看適不適合你吧 紅米該如何接招?真我GT7Pro競速版將挑戰(zhàn)“性價比之王” 又一款紅米手機(jī)推送澎湃OS 2正式版內(nèi)測 你更新了嗎? 雷軍談小米SU7 Ultra“金車標(biāo)”:偶爾虛榮一下人之常情 消息稱小米MIX Flip 2小折疊新機(jī)Q2發(fā)布 華為pura70Pro售價再創(chuàng)新低,麒麟9010+衛(wèi)星通信,等等黨又贏了 多廠商爭相合作,華為DeepSeek席卷云端,下一個爆款? 華為引望申請“5D蟹行”等商標(biāo),通用Cruise裁員50% 從5999元跌至4399元,麒麟9000S+IP68+純血鴻蒙,華為售價親民了 華為+DeepSeek,新進(jìn)展! OPPO Find N5折疊屏手機(jī)首次全球同步發(fā)布、發(fā)售
主站蜘蛛池模板: 亚洲视频在线播放 | 日韩欧美一区二区在线 | 国产三级在线 | 国产综合成人亚洲区 | 91精品视频观看 | 国产精品麻豆一区二区 | 成年美女黄网站色大片图片 | 制服丝袜日日 | 特黄aaaaaaaaa真人毛片 | 久久久线视频 | 精品福利在线 | 日韩电 影在线播放 | 国产91丝袜在线播放九色 | 欧美在线精品一区二区在线观看 | 国产大战开裆丝袜高跟美腿 | 免费一级毛片 | 99热综合 | 制服丝袜第一页在线观看 | 四虎影视网 | 好看的视频免费大全 | 亚洲第一中文字幕 | 四虎在线最新永久免费 | 欧美性精品 | 久久er热这里只有精品免费 | 成人日b视频 | 欧美手机在线 | 国产成人免费永久播放视频平台 | a级大片| 欧美高清在线精品一区二区不卡 | 怡红院一区二区在线观看 | 你懂的国产高清在线播放视频 | 视频在线欧美 | 国产精品一区二区不卡 | 俄罗斯aa一级毛片 | 狠狠色欧美亚洲狠狠色www | 四虎影视www四虎免费 | 4虎最新地址 | seyoyo在线| 韩国自拍偷自拍亚洲精品 | 久久观看午夜精品 | 一级毛片完整免费版 |