科幻小說《銀河系漫游指南》中的翻譯動物“巴別魚”,可能離現實更近了。美國互聯網科技公司Meta的研究人員開發了一種機器學習系統,幾乎可以立即將101種語言的語音翻譯成36種目標語言中的任意一種。
這種大規模多語言和多模態機器翻譯(SEAMLESSM4T)系統還可以將語音轉換成文本、文本轉換成語音、文本轉換成文本。相關研究成果1月15日發表于《自然》。
Meta運營著臉書、WhatsApp和Instagram等社交媒體網站。該公司表示,在向全球學術研究人員成功發布LLaMA大語言模型后,將把SEAMLESSM4T開源用于非商業用途。
過去幾十年里,機器翻譯取得了巨大進步,這在很大程度上歸功于在大數據集上訓練的神經網絡。英語等主要語言的訓練數據比比皆是,但其他語言的訓練數據卻少得可憐。這種不平等限制了機器可以翻譯的語言范圍。美國康奈爾大學的計算機科學家Allison Koenecke表示:“這影響了不經常出現在互聯網上的那些語言。”
Meta團隊在之前語音對語音翻譯工作的基礎上,開啟了一個名為“不讓任何語言掉隊”的項目,旨在為大約200種語言提供文本到文本的翻譯。根據經驗,Meta和其他機構的研究人員發現,即使在翻譯那些訓練數據有限的語言時,使翻譯系統多語言化也能提高其性能,但原因尚不清楚。
該團隊從互聯網和聯合國檔案等來源收集了數百萬小時的音頻文件,以及這些語音的人工翻譯。他們還收集了其中一些演講的文字記錄。
研究人員使用可靠的數據訓練模型識別兩份匹配的內容。這使研究人員能夠將大約50萬小時的語音與文本配對,并自動將一種語言的每個片段與其他語言的對應片段匹配。
SEAMLESSM4T可以將語音轉換成語音,而無須先將其轉換為文本。語音合成器用于產生音頻,它可以翻譯101種語言中的任何一種語音,不過到目前為止,只有36種語言可輸出。該系統還可以執行其他翻譯任務,比如完成不同語言的文本到語音的翻譯。
論文作者之一、Meta的計算機科學家Marta Costa-juss表示,除了增加語言數量外,他們還通過整合文本和語音的不同組合提高系統性能。“這些是改善的關鍵。”她補充說,該系統的時間延遲通常為幾秒鐘,與專業人工翻譯的表現相當。
作者表示,他們對SEAMLESSM4T進行了微調,例如當翻譯中出現與原文不符的攻擊性語言時,可以限制這種情況發生。他們還對系統進行了控制,以防止它將一種語言中無性別的專有詞匯(如英語中的“護士”)翻譯成其他語言中有性別的對應詞。
Koenecke在評論中寫道,為進一步限制自動翻譯的潛在風險,“開發人員應該考慮如何在明確模型局限性的前提下輸出翻譯”,并考慮“在準確性有爭議時完全放棄輸出”。
英國吉爾福德薩里大學的翻譯研究員Sabine Braun說,在機器翻譯被廣泛采用前,應該進行更多審查,并就如何使用機器翻譯進行教育培訓,尤其是身處醫療或法律等關鍵工作崗位的人。