翻譯公司參加了今年的EMNLP大會(huì),該大會(huì)于2018年10月31日至11月4日在比利時(shí)布魯塞爾舉行。EMNLP代表自然語(yǔ)言處理中的經(jīng)驗(yàn)方法,由計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(ACL)組織。
該會(huì)議每年舉辦20多年,吸引了自然語(yǔ)言處理研究領(lǐng)域的與會(huì)者。在任何與人工智能相關(guān)的活動(dòng)繁榮的背景下,參與人數(shù)激增至2500人,是2017年的兩倍多。來(lái)自世界各地的研究人員聚集在一起,分享來(lái)自NLP廣度最新研究的見(jiàn)解。
每年大會(huì)召開(kāi)前,研究人員都要將論文提交給大會(huì)考官審議。EMNLP 2018收集了一系列主題的論文,包括語(yǔ)言模型、口語(yǔ)處理、文本挖掘、自然語(yǔ)言生成、機(jī)器翻譯和NLP機(jī)器學(xué)習(xí)。
WMT18共享機(jī)器翻譯任務(wù)(參與者) 種類(lèi)阿爾托大學(xué) | 學(xué)術(shù)界 | 芬蘭 |
空軍研究實(shí)驗(yàn)室 | 政府 | 美國(guó) |
阿里巴巴集團(tuán) | 公司的 | 中國(guó) |
博?阿紫?一、大學(xué) | 學(xué)術(shù)界 | 火雞 |
查爾斯大學(xué) | 學(xué)術(shù)界 | 捷克共和國(guó) |
臉書(shū)人工智能研究 | 公司的 | 美國(guó) |
全球音頻通信技術(shù) | 公司的 | 中國(guó) |
賈達(dá)夫布爾大學(xué) | 學(xué)術(shù)界 |
2018年提交的2231篇長(zhǎng)短論文中,只有不到四分之一(549篇)被錄取。受邀論文的作者被邀請(qǐng)以演講(221)或海報(bào)(328)的形式展示他們的研究。包含選定論文的研究重點(diǎn)的海報(bào)在大廳的一系列攤位上展示。參與者可以瀏覽選擇并與作者討論海報(bào)的主題。
會(huì)議提交材料的地理分布顯示,亞洲的參與程度很高(42.5%)。32.1%的投稿來(lái)自北美,20.9%來(lái)自歐洲,其他投稿來(lái)自拉丁美洲、非洲、中東和大洋洲。
亞洲和美國(guó)在EMNLP 2018大會(huì)上也有大量贊助商,而歐洲贊助商的供給明顯不足。
許多會(huì)議贊助商包括谷歌、臉書(shū)、蘋(píng)果、亞馬遜、微軟、彭博、百度、Grammarly、ebay、甲骨文、易圖、搜狗、Duolingo等等。事實(shí)上,有兩個(gè)歐洲國(guó)家公司參與進(jìn)來(lái)。對(duì)于大規(guī)模技術(shù)公司總的來(lái)說(shuō),EMNLP不僅僅是一個(gè)分享自己最新NLP研究成果的機(jī)會(huì),更是主動(dòng)向與會(huì)者求賢:從學(xué)術(shù)研究界,AI起步。公司和大規(guī)模技術(shù)的研究人員。
分享的問(wèn)題......
機(jī)器翻譯在EMNLP大會(huì)中并不是一個(gè)小部分,它有自己的會(huì)議流程,被稱(chēng)為機(jī)器翻譯大會(huì)(WMT)。WMT于2006年開(kāi)始提供一系列研討會(huì)作為EMNLP,并于2016年成為一個(gè)綜合性會(huì)議。EMNLP組織者ACL實(shí)際上最初被命名為機(jī)器翻譯和計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(AMTCL ),并于1962年更名。成立六年后。
WMT18共享新聞任務(wù):每種語(yǔ)言對(duì)的前3名溫納第三廣場(chǎng)中文→英文 | 紐運(yùn)輸有限公司 | 在線(xiàn)-B | 劍橋大學(xué) |
捷克語(yǔ)→英語(yǔ) | 查爾斯大學(xué) | 愛(ài)丁堡大學(xué) | 在線(xiàn)-B |
英語(yǔ)→中文 | 騰訊 | Unisound | 全球音頻通信技術(shù) |
英語(yǔ)→捷克語(yǔ) | 查爾斯大學(xué) | 愛(ài)丁堡大學(xué) | 在線(xiàn)-B |
英語(yǔ)→愛(ài)沙尼亞語(yǔ) | 波浪號(hào) | NICT | 波浪號(hào)(不同的NMT發(fā)動(dòng)機(jī)) |
英語(yǔ)→芬蘭語(yǔ) | NICT | 赫爾辛基大學(xué) | 愛(ài)丁堡大學(xué) |
英語(yǔ)→德語(yǔ) | 臉書(shū)人工智能研究 | 在線(xiàn)-B | 微軟 |
英語(yǔ)→俄語(yǔ) | 阿里巴巴集團(tuán) | 在線(xiàn)-G |
EMNLP 2018主辦了第三屆機(jī)器翻譯大會(huì)(WMT18)。所有被接受的論文都包含在數(shù)千頁(yè)的會(huì)議記錄中。
許多講座和海報(bào)側(cè)重于報(bào)告“共享任務(wù)”的結(jié)果,這是一組研究人員試圖通過(guò)以不同方式處理任務(wù)來(lái)解決的一組預(yù)設(shè)問(wèn)題。宣布了為WMT18做準(zhǔn)備的七項(xiàng)常見(jiàn)任務(wù):
新聞翻譯任務(wù)
生物醫(yī)學(xué)翻譯任務(wù)
多式聯(lián)運(yùn)翻譯任務(wù)
度量任務(wù)(評(píng)估給定參考翻譯的機(jī)器翻譯質(zhì)量)
質(zhì)量評(píng)估任務(wù)(在沒(méi)有任何參考的情況下評(píng)估MT質(zhì)量)
自動(dòng)編輯后的任務(wù)
并行語(yǔ)料庫(kù)過(guò)濾任務(wù)
頭條任務(wù)是新聞翻譯分享任務(wù),共收到32條機(jī)構(gòu)103份意見(jiàn)書(shū)。鑒于其受歡迎程度和“初級(jí)分享任務(wù)”的地位,2018機(jī)器翻譯大會(huì)論文成果中均涉及新聞翻譯任務(wù)。為了共享任務(wù),32機(jī)構(gòu)組成了35個(gè)不同的團(tuán)隊(duì)。這項(xiàng)任務(wù)包括建立一個(gè)英語(yǔ)和七種語(yǔ)言(漢語(yǔ)、捷克語(yǔ)、愛(ài)沙尼亞語(yǔ)、德語(yǔ)、芬蘭語(yǔ)、俄語(yǔ)和土耳其語(yǔ))之間的機(jī)器翻譯系統(tǒng)。然后,機(jī)器翻譯輸出由人類(lèi)對(duì)照由本地專(zhuān)業(yè)翻譯人員翻譯的測(cè)試集進(jìn)行評(píng)估,這些翻譯人員根據(jù)他們的領(lǐng)域知識(shí)進(jìn)行選擇。
測(cè)試集由每對(duì)語(yǔ)言約3000個(gè)句子組成。將1500個(gè)英語(yǔ)句子翻譯成其他語(yǔ)言,將1500個(gè)句子翻譯成英語(yǔ)。愛(ài)沙尼亞語(yǔ)因?yàn)槭?018年新增的語(yǔ)言對(duì),所以測(cè)試集更大。對(duì)于14個(gè)語(yǔ)言對(duì)中的每一個(gè),一個(gè)譯者翻譯句子,而第二個(gè)譯者評(píng)估作品的樣本并給第一個(gè)翻譯打分。
通過(guò)翻譯質(zhì)量的直接評(píng)估(DA),機(jī)器翻譯引擎的輸出由人類(lèi)、915人和584名研究人員進(jìn)行評(píng)估。評(píng)估者被要求在100分鐘內(nèi)指出翻譯的句子在多大程度上表達(dá)了機(jī)器翻譯系統(tǒng)人工翻譯的句子的意思。
其中包括五個(gè)在線(xiàn)機(jī)器翻譯服務(wù)的神秘貢獻(xiàn),涵蓋39種語(yǔ)言對(duì)。三個(gè)匿名在線(xiàn)服務(wù)排名前三。ONLINE-B已經(jīng)在所有參賽的MT系統(tǒng)中排名前三,14個(gè)語(yǔ)言對(duì)中有7個(gè)排名第一、第二或第三。每個(gè)系統(tǒng)可能不會(huì)出現(xiàn)在所有的翻譯任務(wù)中。每個(gè)語(yǔ)言對(duì)的前三名團(tuán)隊(duì)如下:一個(gè)不完整的MT系統(tǒng)(它在以下指標(biāo)中排名第四,但根據(jù)另一個(gè)指標(biāo)在技術(shù)上并列第二)值得一提的是:ModernMT的生產(chǎn)引擎,這是一個(gè)由translation聯(lián)合開(kāi)發(fā)的機(jī)器翻譯引擎,這使它成為英德對(duì)的第二層。Translated.net首席執(zhí)行官M(fèi)arco Trombetti在LinkedIn上發(fā)布了一篇慶祝團(tuán)隊(duì)成就的文章:“讓我印象深刻的是1)這是MMT第一次參加。2)MMT未提交研究原型, 但它目前的企業(yè)產(chǎn)品是基于MMT github上已經(jīng)提供給大家的軟件。"

translated不僅為共享任務(wù)提交了企業(yè)機(jī)器翻譯產(chǎn)品,還將捷克語(yǔ)和德語(yǔ)測(cè)試集翻譯成了英語(yǔ)。
這篇論文的結(jié)論是,“除了在14個(gè)被檢查的翻譯方向中表現(xiàn)最好的系統(tǒng)之外,結(jié)果顯示,對(duì)于某些語(yǔ)言對(duì),機(jī)器翻譯的技術(shù)水平與人工翻譯非常接近?!钡?,論文還在繼續(xù)?!霸谧龀鰪?qiáng)有力的主張之前,我們必須仔細(xì)考慮評(píng)估方法(個(gè)別句子的DA)。”
根據(jù)關(guān)于新聞翻譯共享任務(wù)的研究結(jié)果的論文,新聞翻譯共享任務(wù)由歐盟的地平線(xiàn)2020研究和創(chuàng)新計(jì)劃以及根據(jù)許可協(xié)議連接歐洲的設(shè)施提供部分資助。
NMT《向上》研究
自然語(yǔ)言處理已經(jīng)成為一個(gè)日益活躍的研究領(lǐng)域,更廣泛的NLP領(lǐng)域的機(jī)器翻譯研究正在蓬勃發(fā)展。翻譯公司通過(guò)跟蹤提交到研究門(mén)戶(hù)arXiv的NMT論文數(shù)量,定期監(jiān)控神經(jīng)機(jī)器翻譯(NMT)的研究活動(dòng)。有一個(gè)明顯的上升趨勢(shì),微軟、谷歌、亞馬遜和臉書(shū)都是熱情的貢獻(xiàn)者。
由于神經(jīng)機(jī)器翻譯的研究沒(méi)有放緩的跡象,并且在2018年吸引了更多大型科技企業(yè)的興趣,NMT在整個(gè)本地化供應(yīng)鏈中的采用和應(yīng)用變得更加成熟,并將繼續(xù)影響生產(chǎn)力和定價(jià),改變自然語(yǔ)言行業(yè)的格局。