人類(lèi)有超過(guò)7000種語(yǔ)言,其中包括使用人數(shù)不多、相關(guān)資料稀少的“小眾語(yǔ)言”。美國(guó)“元”公司新研發(fā)的一個(gè)人工智能模型,能翻譯200種不同語(yǔ)言,實(shí)現(xiàn)了對(duì)較多“小眾語(yǔ)言”在線翻譯。
人工智能翻譯目前多利用基于人工神經(jīng)網(wǎng)絡(luò)的模型翻譯各種語(yǔ)言。這些模型通常需要大量可在線獲取的訓(xùn)練數(shù)據(jù)。不過(guò),有些特定語(yǔ)言的數(shù)據(jù)尚不能公開(kāi)和低成本獲取或普遍可及,這類(lèi)語(yǔ)言又被稱(chēng)為“低資源語(yǔ)言”。
“元”公司團(tuán)隊(duì)新研發(fā)的一種跨語(yǔ)言技術(shù),能讓基于人工神經(jīng)網(wǎng)絡(luò)的翻譯模型學(xué)習(xí)如何利用已有的翻譯高資源語(yǔ)言的能力來(lái)翻譯低資源語(yǔ)言。團(tuán)隊(duì)?wèi)?yīng)用該技術(shù)開(kāi)發(fā)了一個(gè)名為NLLB-200的在線多語(yǔ)言翻譯工具,可容納200種語(yǔ)言,其能翻譯的低資源語(yǔ)言的數(shù)量是高資源語(yǔ)言數(shù)量的3倍。這一研究成果近期發(fā)表在英國(guó)《自然》雜志上。