來源:Cambridge Independent
編譯:Cecilia
【新智元導讀】劍橋AI公司Speechmatics使用機器學習技術Automatic Linguist,可在一天內學會一門語言的基礎,一周內掌握一門新語言。該公司希望有朝一日能夠掌握世界上的所有語言。
11月11日,劍橋AI公司Speechmatics正式上線其機器學習平臺Automatic Linguist,能在一周內掌握一門新語言。該平臺沿用劍橋大學研發的技術,能夠識別并應用語言中的不同模式。目前,該平臺能夠識別28種語言,實現從語音到文字的準確轉錄。
圖示: Speechmatics將28種語言逐漸加入其系統中。
一個大公司客戶要求Speechmatics兩周內學會印地語,該公司發布了一個系統,根據測試,該系統比市場領先者的錯誤率少23%。
Speechmatics首席執行官Benediktvon Thüngen在接受Cambridge Independent采訪時表示,“印地語非常簡單。我們發現它在發音方面與英語非常相似,所以我們可以使用一個叫做‘適應’的過程。它從我們擁有的不同數據集中學習。”
“每種語言都有各自有趣的地方。韓語、土耳其語、芬蘭語、德語等語言都是粘著構詞,詞語結合起來構成新的詞匯。這是一個有待解決的有趣問題。”
“越南語、漢語等變調語言,也是一個很有意思的挑戰。要教會系統去處理這些語言。”
Speechmatics首席執行官Benediktvon Thüngen。
語言識別的傳統路徑要經過繁瑣、昂貴的人工過程,專家要手動收集、清理海量數據。這是一個一次性系統,因此只關注使用最廣泛的幾種語言才算經濟實用。
但是經過劍橋大學博士、Speechmatics首席技術官Tony Robinson數十年對神經網絡的研究,Speechmatics可以通過識別基本聲音和語法結構,在一天之內掌握一門語言的基礎。
劍橋大學博士、Speechmatics首席技術官Tony Robinson。
該軟件的主要用途之一是為電視提供準確、實時的字幕,并增加了專業個性化詞典,如足球員姓名。
Benedikt說金融機構能夠使用這一技術進行通話錄音,以證明合規性和對PPI不當銷售進行審查。他預言:“語音將成為與設備互動的主要機制。”
該公司白皮書提到,“我們的終極目標是為所有語言提供一個語言包。鑒于世界上約有7000種語言,這將是一個雄心勃勃的目標,我們希望有朝一日能夠全部掌握這些語言。”