高分辨率,低語境英語已成為多語言本地化的首選支點語言。但是,計算機科學和語言學的最新進展現(xiàn)在使我們能夠從英語中獲得更多-從而有助于改進自動語言翻譯和語音識別。
這一切始于2013年,當時麻省理工學院的YevgeniBerzak開始研究一種算法,該算法可以自動確定某人用英語寫作的母語,目的是開發(fā)用戶可以定制的語法校正軟件。他或她的語言背景。
反過來,這項研究產(chǎn)生了對其他語言的語言見解,這要歸功于非母語人士撰寫的英語文本中的語法特征-例如刪除或添加介詞,用特定時態(tài)代替其他語言,或濫用特定輔助動詞-這可以指回那些作家本地使用的語言,甚至可以顯示這些語言之間的語言接近程度。
不完美的啟示然后,就像一部受歡迎的電視連續(xù)劇一次又一次地獲得一次分拆,它導致了一個新的項目,最終可以提高機器翻譯的準確性。Berzak的新研究側(cè)重于這樣一個事實:雖然英語是互聯(lián)網(wǎng)上最常用的語言,有超過10億人,但大多數(shù)人都是非母語人士。根據(jù)Berzak的說法,“當我們科學地學習英語或者我們?yōu)橛⒄Z進行自然語言處理時,這個特征經(jīng)常被忽視?!?/p>
這一最新努力的最終結(jié)果是麻省理工學院第一個由非母語人士撰寫的英語句子主要數(shù)據(jù)庫的發(fā)布。研究人員的數(shù)據(jù)集由ESL學生編寫的5,124個句子組成,現(xiàn)在是監(jiān)督通用依賴句法關(guān)系注釋標準的組織提供的59個數(shù)據(jù)集之一。隨著更多數(shù)據(jù)的積累和UD注釋,它將實現(xiàn)更強大的MT引擎培訓,以用于本地化領(lǐng)域。
具有翻譯資質(zhì)的公司國際貿(mào)易有限公司英文翻譯這項研究最引人注目的是科學現(xiàn)在將人類的不完美納入等式。我們正在經(jīng)歷我們都長大的“垃圾進,垃圾出”范式。過去沒有提供價值的語法上不正確的翻譯現(xiàn)在是洞察力和靈感的源泉-也就是說,由于麻省理工學院研究人員花了數(shù)千小時的努力來完全注釋句子并賦予它們價值。
語言學在地圖上除了為語言洞察提供豐富的并行文本源之外,互聯(lián)網(wǎng)還使語言學家能夠通過推文和其他社交媒體跟蹤新單詞的誕生和傳播。事實上,在2009年至2011年間,由JacobEisenstein領(lǐng)導的佐治亞理工學院的一組研究人員繪制了這一現(xiàn)象。
他們發(fā)現(xiàn)新單詞傾向于源自城市地區(qū),首先在Twitter上傳播到具有相似經(jīng)濟和民族構(gòu)成的城市,然后傳播到更廣泛的受眾。在新詞的傳播中,人口統(tǒng)計學相似性被發(fā)現(xiàn)是比地理接近度更強的因素。在今天的數(shù)字世界中并不奇怪。
技術(shù)告訴我們我們是什么從大數(shù)據(jù)到小數(shù)據(jù)以及介于兩者之間的一切,互聯(lián)網(wǎng)都充滿了信息。麻省理工學院和佐治亞理工學院的項目展示了作為創(chuàng)造性思考者的科學家如何將可能已被歸檔的數(shù)據(jù)視為錯誤和噪音,并利用它來深入了解世界的實際運作方式。我們希望更多年輕和聰明的頭腦能夠向我們展示我們在語言和數(shù)據(jù)鏡像中的反思。