谷歌目前正在努力改善計(jì)算機(jī)閱讀語言的方式。
互聯(lián)網(wǎng)服務(wù)巨頭的科學(xué)家正在為研究人員提供一系列工具,幫助個(gè)人電腦、平板電腦和手機(jī)識(shí)別和理解某些單詞及其背景之間的差異。
比如很多美國人也是“階梯”和“后者”的意思,意思是很難區(qū)分兩者。
類似的問題也存在于移動(dòng)設(shè)備的鍵盤輸入中,尤其是IME鍵盤。例如,當(dāng)用戶在鍵盤上滑動(dòng)手指時(shí),“Yankees”和“take”的輸入模式看起來很相似。這使得設(shè)備更難準(zhǔn)確地知道或預(yù)測(cè)用戶試圖寫什么。
科技網(wǎng)站EWEEK.com報(bào)道稱,谷歌正在提供數(shù)據(jù)集,研究人員可以使用這些數(shù)據(jù)集來嘗試優(yōu)化計(jì)算機(jī)閱讀和聽到單詞的方式,以解決問題。
語言模型計(jì)算機(jī)使用上下文的一種方式是語言模型——一種通過概率分布為一系列單詞分配概率的技術(shù)。

這用于預(yù)測(cè)鍵盤,以及許多其他自然語言處理應(yīng)用,包括語音識(shí)別、機(jī)器翻譯、拼寫糾正、查詢建議和信息檢索。
但是,在評(píng)價(jià)這種復(fù)雜系統(tǒng)的好壞時(shí),有一點(diǎn)可能是復(fù)雜的,那就是錯(cuò)誤的歸因。
谷歌認(rèn)為,它有一套標(biāo)準(zhǔn)的大詞,其基準(zhǔn)可以很容易地進(jìn)行比較,并可以用新的建模技術(shù)進(jìn)行實(shí)驗(yàn),這可能是一種改善計(jì)算機(jī)語言建模的潛在方法。
因此,它發(fā)布腳本,將一組公共數(shù)據(jù)轉(zhuǎn)化為包含十億以上單詞的語言模型,并具有標(biāo)準(zhǔn)化的訓(xùn)練和測(cè)試分段。同時(shí),它還在方便的位置發(fā)布經(jīng)過處理的數(shù)據(jù)以及訓(xùn)練和測(cè)試數(shù)據(jù)。
這個(gè)想法是為了讓研究團(tuán)體更容易快速地重現(xiàn)結(jié)果。所有想要免費(fèi)使用數(shù)據(jù)集的研究人員都可以獲得所有基準(zhǔn)腳本和數(shù)據(jù)。
新的更好的標(biāo)準(zhǔn)基準(zhǔn)谷歌希望為語言建模實(shí)驗(yàn)創(chuàng)建一個(gè)新的更好的標(biāo)準(zhǔn)基準(zhǔn)。
隨著越來越多的研究人員使用新的基準(zhǔn),比較將更加容易和準(zhǔn)確,進(jìn)展也將更快。
研究人員目前根據(jù)他們的選擇進(jìn)行報(bào)告。這意味著由于缺乏處理標(biāo)準(zhǔn),結(jié)果難以重現(xiàn)。
谷歌研究的產(chǎn)品經(jīng)理戴夫·奧爾(Dave Orr)和谷歌研究科學(xué)家西普里安·切爾巴(Ciprian Chelba)鼓勵(lì)研究人員使用新的基準(zhǔn),因?yàn)樗麄冋业搅烁倪M(jìn)的方法來幫助機(jī)器找出搜索和查詢的背景。