微胖少妇激情888AV,国产毛片毛片4p懂色,双飞调教&波多野结衣,免费看的簧片

好育寶

好育寶

MIT發(fā)布無需語料培訓(xùn)的機(jī)器翻譯引擎

admin 1 49

麻省理工學(xué)院的研究人員開發(fā)了一種新穎的“無監(jiān)督”語言翻譯模型——這意味著它可以在沒有人工注釋和指導(dǎo)的情況下運(yùn)行——這可以導(dǎo)致更快更有效的基于計(jì)算機(jī)的語言翻譯。

來自谷歌、臉書和亞馬遜的翻譯系統(tǒng)需要訓(xùn)練模型來在數(shù)百萬份文檔中尋找模式,例如法律和政治文檔或新聞文章,這些文檔已經(jīng)被人類翻譯成各種語言。給定一種語言中的新單詞,他們可以找到另一種語言中的匹配單詞和短語。

然而,這種翻譯數(shù)據(jù)既費(fèi)時(shí)又難以收集,對(duì)于全世界使用的7000種語言中的許多語言來說,可能根本不存在。最近,研究人員一直在開發(fā)“單語”模型,該模型在兩種語言之間翻譯文本,但它們之間沒有直接的翻譯信息。

在本周自然語言處理經(jīng)驗(yàn)方法會(huì)議上發(fā)表的一篇論文中,麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究人員描述了一種比這些單語模型更快、更有效的模型。

該模型使用了一種稱為格羅莫夫-瓦瑟斯坦距離的統(tǒng)計(jì)度量,基本上是測(cè)量一個(gè)計(jì)算空間中的點(diǎn)之間的距離,并將它們與另一個(gè)空間中的相似距離點(diǎn)進(jìn)行匹配。他們將這種技術(shù)應(yīng)用于兩種語言中的“單詞嵌入”,其中用向量表示的單詞——基本上是數(shù)字陣列——與具有相似含義的單詞聚集在一起。在這樣做時(shí),該模型快速對(duì)齊兩個(gè)嵌入中的單詞或向量,這兩個(gè)嵌入通過相對(duì)距離最緊密相關(guān),這意味著它們可以被直接翻譯。

在實(shí)驗(yàn)中,研究人員的模型與最先進(jìn)的單語模型一樣準(zhǔn)確——有時(shí)甚至更準(zhǔn)確——但速度更快,并且只使用一小部分計(jì)算能力。

“該模型將兩種語言中的單詞視為一組向量,并通過基本的保留關(guān)系將(這些向量)從一組映射到另一組,”論文的共同作者Tommi Jaakkola說,他是CSAIL的研究員,也是電氣工程和計(jì)算機(jī)科學(xué)系以及數(shù)據(jù)、系統(tǒng)和社會(huì)研究所的Thomas Siebel教授?!斑@種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內(nèi)容。”

CSAIL博士生的第一作者大衛(wèi)·阿爾瓦雷斯-梅利斯說:“如果你沒有任何匹配兩種語言的數(shù)據(jù),那么這個(gè)模型代表了機(jī)器翻譯的主要目標(biāo)之一,即完全無監(jiān)督的單詞對(duì)齊?!蹦梢杂成鋬煞N語言,并使用這些距離度量來對(duì)齊它們。"

關(guān)系最重要。

用于無監(jiān)督機(jī)器翻譯的對(duì)齊嵌入并不是一個(gè)新概念。最近的工作已經(jīng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接匹配兩種語言的單詞嵌入或矩陣中的向量。然而,這些方法需要在訓(xùn)練期間進(jìn)行大量的調(diào)整,以使對(duì)齊完全正確,這是低效和耗時(shí)的。

另一方面,基于關(guān)系的距離測(cè)量和匹配向量是一種更有效的方法,它不需要太多的微調(diào)。無論單詞向量落在給定矩陣的哪個(gè)位置,單詞之間的關(guān)系(即它們的距離)都將保持不變。比如“父親”的向量可能落在兩個(gè)矩陣完全不同的區(qū)域。但“父親”和“母親”這兩個(gè)載體,大概總是緊密相連的。

“這些距離是恒定的,”阿爾瓦雷斯-梅利斯說。通過查看距離而不是矢量的絕對(duì)位置,您可以跳過對(duì)齊,直接匹配矢量之間的對(duì)應(yīng)關(guān)系

這就是格羅莫夫-沃瑟斯坦派上用場(chǎng)的地方。這項(xiàng)技術(shù)已被用于計(jì)算機(jī)科學(xué),例如,在平面設(shè)計(jì)中幫助對(duì)齊圖像像素。但這個(gè)指標(biāo)似乎是量身定做的。阿爾瓦雷斯-梅利斯說:“如果一個(gè)空間中有一些點(diǎn)或單詞,格羅莫夫-瓦瑟斯坦會(huì)自動(dòng)嘗試找到相應(yīng)的點(diǎn)簇。另一個(gè)空間。”

為了進(jìn)行訓(xùn)練和測(cè)試,研究人員使用了一個(gè)公開可用的word嵌入式數(shù)據(jù)集,稱為FASTTEXT,它有110個(gè)語言對(duì)。在這些嵌入和其他嵌入中,越來越頻繁地出現(xiàn)在相似上下文中的單詞具有緊密匹配的向量。“媽媽”和“爸爸”平時(shí)在一起,但離“家”更遠(yuǎn)。

MIT發(fā)布無需語料培訓(xùn)的機(jī)器翻譯引擎

提供“軟翻譯”

該模型注意到與其他向量密切相關(guān)但不同的向量,并指定相似的距離向量將在另一個(gè)嵌入中對(duì)應(yīng)的概率。這有點(diǎn)像“軟翻譯”,阿爾瓦雷斯-梅利斯說,“因?yàn)樗恢皇欠祷匾粋€(gè)詞的翻譯,而是告訴你‘這個(gè)向量或詞與這個(gè)詞或詞有很強(qiáng)的對(duì)應(yīng)關(guān)系,語言在另一個(gè)詞里。" "

一個(gè)例子是一年中的月份,在許多語言中它們是緊密結(jié)合在一起的。該模型將看到一組12個(gè)向量,它們?cè)谝粋€(gè)嵌入中聚集,并且在另一個(gè)嵌入中非常相似。阿爾瓦雷斯-梅利斯說:“這個(gè)模型不知道這是幾個(gè)月?!??!八恢酪唤M12個(gè)點(diǎn)和另一種語言的12個(gè)點(diǎn)對(duì)齊,但和其他詞不一樣,所以可能組合得很好。通過找到每個(gè)單詞的這些對(duì)應(yīng)關(guān)系,同時(shí)與整個(gè)空間對(duì)齊?!?/p>

Jaakkola表示,研究人員希望這項(xiàng)工作可以作為將格羅莫夫-瓦瑟斯坦方法應(yīng)用于機(jī)器翻譯系統(tǒng)的“可行性檢查”,從而更快更有效地運(yùn)行,并獲得更多語言的訪問權(quán)限。

此外,該模型的一個(gè)可能的好處是,它自動(dòng)生成一個(gè)值,可以解釋為在數(shù)字尺度上量化語言之間的相似性。研究人員表示,這可能對(duì)語言學(xué)研究有用。該模型計(jì)算兩個(gè)嵌入中所有向量之間的距離,該距離取決于句子結(jié)構(gòu)和其他因素。如果向量非常接近,它們的得分將接近0,越遠(yuǎn),它們的得分越高。比如法語、意大利語等類似的浪漫語言得分接近1,而文言文與其他主要語言得分在6-9之間。

阿爾瓦雷斯-梅利斯說:“這為你提供了一個(gè)用類似語言表達(dá)數(shù)據(jù)的良好而簡(jiǎn)單的數(shù)字...并且可以用來描述語言之間的關(guān)系。”

91香蕉下载| 国产精品流白浆在线观看| 98ntsc色域| 1024在线视频| 国产超碰人人爽人人做人人爱| 日本极品人妻videossex| 12—13女人毛片| 无码人妻一区二区三区超清| 国产精品欧美激情视频| 大香蕉狠狠干| 内射激情女神| 你懂得的在线视频网站| 蜜臀精品一区二区三区| 国产黄色精品| 中文字幕欧洲无码| 色五月婷婷中文字幕| 丁香五月开心亚洲| 综合色图17p| 亚洲国产精品99| 亚洲日韩欧美综合一区| 在线免费中文字幕| 午夜性色| 高清欧美日韩色| 啪啪啪网站| 国产精品人人操人人干| javaparser少妇高潮| 不卡区在线中文字幕| 日韩三区欧美| 亚洲综合色区另类av| 中国熟妇hd| 国产欧美日韩黄片| 日韩午夜在线电影| www四虎影院| 91精品国产高清91久久久久久| 亚洲色偷偷色噜噜狠狠99| 色www亚洲国产张柏芝| 性色AV一区免费| 99国产精品久久久久久| 久久国产精品99久久久久久| 五月婷婷综合色| 又黄又爽又高潮免费毛片|