谷歌娘新技能:谷歌將語言變成向量空間

2013-10-14 21:22 來源:電子信息網(wǎng) 作者:和靜

機(jī)器翻譯(簡稱“機(jī)譯”)一直是科技領(lǐng)域的一大難題。目前基于統(tǒng)計機(jī)譯方法的在線工具如谷歌翻譯、必應(yīng)翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結(jié)果勉強(qiáng)可用,但離完美還相去甚遠(yuǎn)。

為提高在線翻譯質(zhì)量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機(jī)譯方法:將語言翻譯變成向量空間數(shù)學(xué)問題,利用數(shù)據(jù)挖掘技術(shù)建模一種語言的結(jié)構(gòu),然后與另一種語言的結(jié)構(gòu)進(jìn)行對比,從而擴(kuò)充和完善現(xiàn)有的雙語語料庫。該研究成果的論文預(yù)印本于9月17日在著名網(wǎng)站arXiv.org公開后,引起了學(xué)術(shù)界的廣泛關(guān)注。

新的方法依賴于一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數(shù)語言中都有描述相同動物的單詞,如“狗”、“貓”和“?!保@些單詞很可能以相同的方式在句子中使用,如“貓是一種比狗小的動物”。

125495597_71n

英語與西班牙語的數(shù)字向量空間圖

數(shù)字也一樣;上圖顯示了在英語和西班牙語中數(shù)字(一至五)的向量表示法以及它們是如何相似的。

語言中單詞之間的關(guān)系集合被稱為“語言空間”(language space),可類比為一個點(diǎn)到另一個點(diǎn)的向量集合,能以數(shù)學(xué)的方式進(jìn)行處理,例如“國王”減去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。

在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,“盡管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準(zhǔn)確率可以達(dá)到幾乎90%?!?

中國數(shù)學(xué)家和語言學(xué)家周海中認(rèn)為,這種基于線性代數(shù)的機(jī)譯方法很有新意也有實(shí)效。不過,他對不同語系的自然語言(如英語和漢語)在線翻譯是否也有那么高的準(zhǔn)確率表示懷疑。他強(qiáng)調(diào):不管用什么方法來提高機(jī)譯質(zhì)量,首先要解決的是自然語言的本身問題,尤其是語義表達(dá)和語用功能,而不是計算機(jī)編程問題或數(shù)學(xué)建模問題?!霸谌祟惿形疵髁舜竽X是如何進(jìn)行自然語言的模糊識別和邏輯判斷的情況下,機(jī)譯質(zhì)量要想達(dá)到‘信、達(dá)、雅’的程度是不可能的?!敝芎V姓f。

谷歌 向量空間

相關(guān)閱讀

暫無數(shù)據(jù)

一周熱門