最近,我們報道了一個相當(dāng)令人震驚的消息,谷歌的翻譯設(shè)備在人工智能術(shù)語方面有了重大飛躍——似乎一直都是這樣。使用機器學(xué)習(xí),谷歌翻譯“教授”本身就是一種更好的方法,通過發(fā)明自己的語言來翻譯不熟悉的語言,并有效地充當(dāng)中間人。
看過《終結(jié)者》電影的人都知道,一旦天網(wǎng)的人工智能系統(tǒng)有了自我意識,事情就會迅速變得梨形。
所以你可能會有點驚慌地發(fā)現(xiàn),機器正在悄悄地開始做出自己的創(chuàng)造性決定?!督K結(jié)者》中,天網(wǎng)迅速從自我意識走向核災(zāi)難。
機器思考和學(xué)習(xí)的時代即將到來。在硅谷,互聯(lián)網(wǎng)巨頭百度在語音合成方面取得了突破,使人工智能能夠快速學(xué)習(xí)表達口語。事實上,這些機器現(xiàn)在可以在幾個小時內(nèi)自學(xué)。
文本到語音系統(tǒng)以前是通過記錄個人(通常是演員)大聲朗讀的大量口語單詞和常用短語來創(chuàng)建的。
然后,它們以各種組合的形式提供,以適合作為語音時鐘、衛(wèi)星導(dǎo)航系統(tǒng)或自動呼叫系統(tǒng)來接聽電話。
這種方法帶來了一些挑戰(zhàn),例如,如果系統(tǒng)需要擴展,而原來的參與者不再可用,會發(fā)生什么情況。導(dǎo)航系統(tǒng)通常會圍繞這個問題,要求原演員記錄一些常見的單詞部分,然后拼湊成不常見的街道名稱。
演員會記錄常見的地名,如“高街”,但對于非常不常見的地名,如托基的Helevoetssluisway(以荷蘭小鎮(zhèn)的雙子城命名),系統(tǒng)會粉碎演員的音節(jié)記錄,以獲得宣布單詞時可以做出的努力。
谷歌最近的研究提出用一個系統(tǒng)來克服這個問題。相反,該系統(tǒng)從觀察到的語音中觀察聲波,并用它來發(fā)送任何文本的抄本。
神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)但仍需要人類訓(xùn)練,它仍需要克服一些計算挑戰(zhàn)才能用于現(xiàn)實世界。
部分問題在于現(xiàn)實生活中語音太快,計算跟不上新的發(fā)展。谷歌的解決方案速度不夠快,無法與人對話。
最新發(fā)展
這就是百度剛剛介入的地方,在硅谷開發(fā)了自己的基于自訓(xùn)練深度學(xué)習(xí)算法的語音合成項目。
這一新的發(fā)展將一場演講分解為最小的可能組成部分——現(xiàn)象——百度的人工智能可以調(diào)整這些音調(diào),從而為其產(chǎn)生的演講添加情感。
百度的系統(tǒng)不需要人工訓(xùn)練,可以快速獲取新數(shù)據(jù)。這說明它也許能適應(yīng)新的語言。它還可以學(xué)習(xí)一種語言中不同的語音類型:例如,AI可以閱讀有聲書,并以不同的方式完成每個角色的語音。這為人機之間更真實、更有情感技巧的對話提供了新的可能性。
這在衛(wèi)生保健等敏感領(lǐng)域具有明顯的意義。如果互動在情感上更加微妙,患者可能更容易接受AI。
最重要的是,百度的團隊聲稱已經(jīng)克服了谷歌遇到的計算問題。據(jù)估計,新系統(tǒng)的速度比谷歌上一次迭代快400倍左右。這意味著系統(tǒng)可以足夠快地工作,在現(xiàn)實生活中發(fā)揮作用,例如通過不可預(yù)測的交易與人互動。
談?wù)摍C器人的未來
隨著兩大互聯(lián)網(wǎng)巨頭將目光轉(zhuǎn)向語音合成,這一研究領(lǐng)域幾乎必然會快速推進。人類一旦解決了人工對話的問題,就會對商業(yè)、技術(shù)、社會產(chǎn)生很多影響。
通過自動駕駛汽車和自動檢測等技術(shù),可以更容易地向前推進,從而減少煩惱和重復(fù)。
自學(xué)系統(tǒng)的確是解決不可預(yù)測的談話情況的關(guān)鍵。目前人工智能的交互局限在相當(dāng)狹窄的范圍內(nèi);例如,自動語音郵件可以從你那里得到一個電話號碼,或者用一個簡單的是/否回答來回復(fù)。
能夠適應(yīng)新情況的語音合成系統(tǒng)開辟了新的可能性,例如與自動駕駛汽車談判路線,或者向AI醫(yī)生描述你的癥狀。
改進的語音合成也能更好地代表我們。因運動神經(jīng)元疾病等疾病而失去聲音的人,如果在失去說話能力之前記錄下他們的聲音樣本,就可以通過計算機通信更好地反映他們的身份。
或者,計算機可以結(jié)合來自其年齡、性別和地區(qū)的多種聲音來創(chuàng)建一個公平的表示。
當(dāng)然,像這樣的新技術(shù)的出現(xiàn)也有負(fù)面影響。如果AI交互可以代替人類,可能會造成大量失業(yè)。

對于昂貴且容易出錯的人類工作者來說,執(zhí)行服務(wù)行業(yè)等交易的需求要少得多。
我們認(rèn)為理所當(dāng)然的事情,比如人們在餐廳等待,可能會變得更加罕見。社會變革,經(jīng)濟中斷,必然伴隨著可以和我們自由對話的機器的到來。