不可否認,最熟悉和最容易獲得的神經(jīng)MT(NMT)引擎是谷歌翻譯。你可能經(jīng)常使用它。結(jié)果看起來非常好。句子讀起來非常流利,沒有機器翻譯的跡象。這是NMT最大的陷阱 - 看起來非常好看。
負責亞馬遜機器翻譯研究與開發(fā)小組的Alon Lavie在最近的全球演講播客中表示,神經(jīng)機器翻譯“會產(chǎn)生非常非常奇怪的錯誤......因為它不是源語言和目標之間的直接匹配語言的單詞和單詞的順序...“事實是,陌生感可以被平滑性掩蓋。
乍一看好看最近我發(fā)現(xiàn)自己通過谷歌翻譯提供這一行文字。
對于這些產(chǎn)品,請根據(jù)以下URL中的定義使用視覚化不可視化: |
它針對的是語言學家,根據(jù)具體情況指導他們使用術(shù)語shikakuka而不是kashika。這兩個詞都意味著“可視化”,但細微差別略有不同。而結(jié)果是如此幽默,我認為不分享它們將是一種恥辱。
神經(jīng)齒輪發(fā)出嗖嗖聲,立刻給了我這個:
您可能會認為源中的兩個日語術(shù)語視覚化和可視化將通過目標文本。畢竟,沒有必要翻譯它們。但不是。相反,它產(chǎn)生了視覺障礙,一個大紅旗。只需點擊反向翻譯按鈕(這總是一個好主意),看看它意味著什么......
好吧,這甚至接近我想說的話嗎?避免視覺障礙?我想歧視某人嗎?當然不是。問題是,日文文本是如此流暢,它讀起來就像我真正的意思是真正的意思。
Alon是絕對正確的。很奇怪。他們的神經(jīng)網(wǎng)絡內(nèi)部發(fā)生了什么?我可以預先編輯源代碼以幫助MT產(chǎn)生更好的輸出嗎?也許在句子結(jié)尾處那種不自然的冒號會造成某種意想不到的破壞?讓我們把它改成一個時期。
不。它仍然給我們提供了有問題的視覺障礙,但接著是一些不同的措辭。
呃,是的 因此,將兩個點(:)改為一個(。)會使我們從“避免視覺障礙”到“確認沒有視覺障礙”。幫幫我!
伸出援助之手好吧,很明顯MT引擎對英文源中的日文文本感到困惑,因此將這些日語術(shù)語與其他術(shù)語區(qū)分開來可能會有所幫助,對嗎?如何將它們放在括號中:
太好了,不再是視覚病害!現(xiàn)在視覚化毫發(fā)無損地成為視覚化,而可視化則來自......第二視視化。是什么賦予了?那么NMT實際上是在翻譯成日語之前將兩個日語術(shù)語首先翻譯成相同的英語“可視化”,還是什么?
但除了房間里的大象之外,翻譯的其他部分都做得很好。它正確地認識到在這種情況下使用“不”實際上意味著“而不是”。也許“下面的網(wǎng)址定義”將被更好地翻譯為“在下面的網(wǎng)址定義,”但比起我們在沒版本看到了規(guī)模宏偉的問題,似乎挑剔' T選用支架。
摘要:在當前的Google NMT實現(xiàn)中,使用括號來引用源文本中嵌入的目標語言術(shù)語可能有助于NMT更好地理解句子的含義,但是那些相同的目標語言術(shù)語(理想情況下應保留原樣) )從源頭到目標的路上可能會變得不準確。所以小心!
非神經(jīng)的情況?想一想,也許基于短語的統(tǒng)計MT畢竟不是那么糟糕?我從來不知道錯誤地翻譯已經(jīng)在目標語言中的術(shù)語開始。它只是做橫向傳球并從另一端出來。以下是我們在日本常用的幾個在線翻譯的結(jié)果。
首先,我去了 。
保持術(shù)語視覚化和可視化完全沒有問題,但整體翻譯基本上是不可理解的。盡管如此,結(jié)果卻沒有讓我們感到愉快(喜悅)。
接下來,我嘗試了 。
好吧,翻譯過程中未翻譯的“不”是一個好兆頭。在重新翻譯領域中完整拼寫出來的網(wǎng)址似乎有些過分。但是如果被要求對這個輸出進行后期編輯,這個看起來與以前的雅虎MT大致相當(或者更像兩個都是雙轉(zhuǎn)向架)。
什么神經(jīng)機器翻譯?在關于神經(jīng)MT的播客的第1部分中,微軟機器翻譯小組項目經(jīng)理Chris Wendt表示,當神經(jīng)和統(tǒng)計機器翻譯進行直接比較時,“統(tǒng)計將贏得準確性,神經(jīng)贏得流暢性“在我們的例子中,基于短語的確可以使兩個關鍵術(shù)語正確,而神經(jīng)則經(jīng)常使用風格,流暢地混淆它們。
當人類比較基于短語和神經(jīng)MT的輸出時,自然傾向于認為神經(jīng)MT版本“更好”,因為推動我們評估的關鍵因素往往是流暢性超過準確性。毫無疑問,神經(jīng)MT是一種強大而有用的工具。但是,由于流暢性,避免被誤導成一種虛假的安全感 - 或者你可能會滔滔不絕地使你的讀者,你的公司和你自己感到尷尬。