谷歌的神經(jīng)機器翻譯系統(tǒng):架起了人機翻譯的鴻溝,昨天在ARXIV.ORG上引入了谷歌的神經(jīng)機器翻譯系統(tǒng)(GNMT),并將機器心翻譯成摘要,并將其推薦給網(wǎng)站(www. jqIZHIXix.com)。搜索博客發(fā)表了一篇介紹該研究的文章,并宣布GNMT已經(jīng)投入到非常難的漢英雙語的生產(chǎn)中,這引起了業(yè)界的極大關注。
十年前,我們推出了Google Translate,其背后的核心算法是基于短語的機器翻譯。攻勢仍然是一個艱難的目標。
今天,我們宣布谷歌神經(jīng)機器翻譯系統(tǒng)(GNMT)的發(fā)布,它使用迄今為止最先進的培訓技術來實現(xiàn)機器翻譯質(zhì)量的最大改進。對于我們的發(fā)現(xiàn)的全部細節(jié),請參閱我們的論文,谷歌的神經(jīng)。機器翻譯系統(tǒng):彌補人與機器翻譯之間的鴻溝(見本文末尾){ 1 }。
幾年前,我們開始使用遞歸神經(jīng)網(wǎng)絡(RNN)來直接學習輸入序列(如一種語言中的句子)到輸出序列(另一種語言中的相同句子)的映射。RASE,然后在很大程度上獨立地翻譯它們。神經(jīng)機器翻譯(Neuro-Machine.,NMT)將整個輸入句子作為翻譯的基本單位,其優(yōu)點在于它比以往的基于短語的翻譯系統(tǒng)要求更少的工程設計,當NMT被首次提出時,它達到了與基于短語的翻譯系統(tǒng)相同的精度。中型公共基準數(shù)據(jù)集的翻譯系統(tǒng)
從那時起,研究人員提出了許多改進NMT的技術,包括模擬外部對齊模型以處理稀有詞{3},使用注意力來對齊輸入和輸出詞{4},以及將詞分成更小的單元以處理稀有詞{5,6}。NMT的速度和準確性還沒有滿足成為像Google Translate這樣的生產(chǎn)系統(tǒng)的要求。我們的新論文{1}描述了我們?nèi)绾慰朔筃MT工作在非常大的數(shù)據(jù)集上的許多挑戰(zhàn),以及我們?nèi)绾螛嫿ㄒ粋€足夠快速和準確的系統(tǒng),以便進行打賭。ER翻譯谷歌的用戶和服務。
來自比較評估的數(shù)據(jù),其中人類評估者比較給定源語句的翻譯質(zhì)量。評分范圍從0到6,對于無意義翻譯為0,對于完美翻譯為6。
下面的可視化顯示了GNMT將漢語句子翻譯成英語句子的過程。首先,網(wǎng)絡將漢語句子中的單詞編碼為一列向量,每個向量表示迄今為止所讀的所有單詞(編碼器)的含義。讀取后,解碼器開始工作——一次生成一個英語句子(Decoder)。為了在每一步中正確地生成翻譯后的單詞,解碼器將重點放在與生成英語單詞最相關的編碼中文向量的權重分布上(at)。張力和藍色鏈接的透明度表明解碼器對編碼字的關注。
以人類評價的平行比較為標準,GNMT的翻譯與以往的基于短語的制作系統(tǒng)相比有了很大的改進。在雙語人類評價員的幫助下,我們測量了來自維基百科和新聞網(wǎng)站的樣本句子,發(fā)現(xiàn)GNMT減少了翻譯。N在多個主要語言對中的誤差超過55-85%。
俄語翻譯收費標準報價我們的系統(tǒng)產(chǎn)生一個翻譯案例,它的輸入句子從一個新聞網(wǎng)站中取樣。這個地址(https:驅動器.google.comfiled0B4-Ig7UAZe3BSUYweVo3eVhNY3cviewusp=.)允許您看到來自新聞網(wǎng)站和書籍的輸入句子的更多隨機取樣的翻譯樣本。
除了今天發(fā)表這篇研究論文,我們還宣布GNMT已經(jīng)被投入到一個非常困難的語言到英語的翻譯中。GNMT產(chǎn)品部署使用我們的開放式機器學習工具包TensorFlow和張量處理單元,它們?yōu)椴渴疬@些強大的GNMT模型提供足夠的計算能力,并滿足Google Translate產(chǎn)品的嚴格延遲要求。nese-to-English翻譯是Google Translate支持的10000多種語言對之一,我們將在未來幾個月繼續(xù)將我們的GNMT擴展到更多的語言對。
機器翻譯遠未完全解決。GNMT仍然會犯一些人類譯者從未犯過的大錯誤,比如在翻譯專有名詞或稀有名詞時遺漏和錯誤,以及在不考慮段落或頁面上下文的情況下單獨翻譯句子。為了給我們的用戶提供更好的服務,我們還有更多的工作要做。但是GNMT代表了一個重要的里程碑。我們想與過去幾年中為這項研究做出貢獻的許多研究人員和工程師一起慶祝,無論是來自Google還是來自更廣泛的社區(qū)。
Google Brain團隊和Google翻譯團隊參與了這個項目,Nikhil Thorat和Big Picture也幫助可視化了這個項目。
東莞翻譯公司哪家好論文:谷歌神經(jīng)機器翻譯系統(tǒng):彌補人機翻譯的鴻溝
翻譯后摘要:神經(jīng)機器翻譯(NMT)是一種端到端的自動翻譯學習方法,有望克服傳統(tǒng)的基于短語的翻譯系統(tǒng)的缺點,不幸的是,眾所周知,NMT系統(tǒng)訓練的計算成本和翻譯FIE。此外,大多數(shù)NMT系統(tǒng)難以處理稀有字,這些問題阻礙了NMT在實際部署和服務中的應用,因為在實際應用中,精度和速度是至關重要的。在這項工作中,我們提出GNMT,谷歌的神經(jīng)機器翻譯。我們的模型由一個深度LSTM網(wǎng)絡組成,其中八個編碼器和八個解碼器使用注意和剩余連接。為了提高并行性和減少訓練時間,我們的注意機制將解碼器的底層連接到頂層。為了加快最終的翻譯速度,我們在推理過程中使用了低精度的操作。為了改進對稀有詞的處理,我們將詞分成一組有限的公共子詞單元,這些子詞單元既是輸入又是輸出。字符界定模型的靈活性和詞界定模型的有效性,自然地處理了稀有詞的翻譯,最終提高了系統(tǒng)的整體精度。激怒生成可能覆蓋源語句中所有單詞的輸出語句。在WMT'14英法英德基準測試中,GNMT取得了與當前最佳結果相當?shù)慕Y果。與基于谷歌的短語系統(tǒng)相比,壓縮翻譯錯誤平均為60%。
{ 1 }谷歌神經(jīng)機器翻譯系統(tǒng):彌補人與機器翻譯之間的鴻溝,雍慧武、Mike Schuster、支峰晨、Quoc V. Le、Mohammad Norouzi、Wolfgang Macherey、Maxm KRikun、袁曺、Pig、Y、Y、Y、Y、Y、Yukasz Kaiser,Stephan Gouws,Yoshikiyo Kato,Taku Kudo,Hideto Kazawa,Keith Stevens,George Ku.,Nishant Patil,Wei.,Cliff.,Jason Smith,Jason Riesa,Alex Rudnick,Oriol Vinyals,Greg Corrado,Macduff Hughes,Jeffrey Dean.技術,2016。
{ 2 }序列與神經(jīng)網(wǎng)絡的序列學習,Ilya Sutskever,OrOL Viyales,Quoc V.L.神經(jīng)信息處理系統(tǒng)的進展,2014。
{ 3 }解決神經(jīng)機器翻譯中的罕見詞問題,Minh Thang Luong,Ilya Sutskever,Quoc V. Le,Orio-Viyales,WojCij.ZaRMBA。計算語言學協(xié)會第五十三屆年會論文集,2015。
{ 4 }神經(jīng)機器翻譯,通過聯(lián)合學習對齊和翻譯,Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio。學習表示國際會議,2015。
{ 5 }日本和韓國的語音搜索,Mike Schuster和Kaisuke Nakajima。IEEE聲學、語音和信號處理國際會議,2012。
{ 6 }神經(jīng)機器翻譯罕見詞的子詞單位,Rico Sennrich,Barry Haddow,Alexandra Birch。計算語言學協(xié)會第五十四屆年會論文集,2016。