西方語(yǔ)言原生的開(kāi)發(fā)人員常常接近日語(yǔ),好像它只是另一種語(yǔ)言。源字符串被翻譯,目標(biāo)字符串被排序,一切都變成碎片。在本文中,我們將帶您了解日文文本排序的復(fù)雜性 - 因此您將無(wú)法通過(guò)艱難的方式了解它。
通過(guò)“艱難的方式”,我們的意思是在評(píng)論和用戶(hù)論壇中提供嚴(yán)厲的反饋。實(shí)際上,就在幾年前,一些應(yīng)用程序通過(guò)ASCII碼對(duì)日語(yǔ)進(jìn)行排序,并且它將被大肆宣傳為索引生成功能 - 這將是無(wú)法使用的。這些天,日本人正在接觸到更多的意識(shí),但挑戰(zhàn)仍然存在 - 如果你不小心,就像潛在的道路危險(xiǎn)。
1.知道你正在處理多個(gè)字符集首先,要明白日語(yǔ)是一種具有三種不同字符集的語(yǔ)言 - 拼音平假名 和片假名,以及語(yǔ)言漢字。平假名和片假名每個(gè)由46個(gè)字符組成,基本上彼此具有1對(duì)1的關(guān)系,并且它們按照gojuon順序排序。大多數(shù)平臺(tái)已經(jīng)支持這種級(jí)別的基本排序,但如果你不是日語(yǔ),你可能會(huì)有一點(diǎn)麻煩,告訴シ(shi)和ツ(tsu),或リ(ri)和ソ(so)和ン(n)。我們假設(shè)計(jì)算機(jī)將識(shí)別出差異。
不是最簡(jiǎn)單的系統(tǒng),但是當(dāng)你考慮第三個(gè)字符集漢字時(shí),事情變得非常困難。日本兒童在小學(xué)時(shí)學(xué)習(xí)了1,006個(gè)漢字字符,而高中則增加到了2,136個(gè),另外還有983個(gè)漢字專(zhuān)門(mén)用于人們的名字。與您需要學(xué)習(xí)英語(yǔ)的26個(gè)字母相比,這是一個(gè)沉重的負(fù)擔(dān)。
在中國(guó),漢字的發(fā)源地(稱(chēng)為hànzì),平均識(shí)字需要大約3000個(gè)字符,但是日本人更具挑戰(zhàn)性的是每個(gè)漢字可以有多個(gè)語(yǔ)音讀數(shù) - 這將是你的分類(lèi)和索引機(jī)械中的猴子扳手。
如果您感到無(wú)聊,我建議您通過(guò)NativLang觀看這些視頻,并跳至第4部分。
快速介紹日語(yǔ)“拼寫(xiě)”的復(fù)雜性
2.了解漢字和gojuon之間的脆弱關(guān)系Gojuon是日本排序的黃金法則。如果你正在處理面向用戶(hù)的任何事情,比如術(shù)語(yǔ)索引,你需要將漢字字符串與kana字符串一起整合到gojuon順序中。
例如,嘗試對(duì)這個(gè)三字列表進(jìn)行排序:[生魚(yú)] [ライス]和[ご飯]。如果你認(rèn)為ご飯應(yīng)該先來(lái)(因?yàn)椁吃趃ojuon順序是#10 ),接著是生魚(yú)(因?yàn)樯谶@種情況下以な開(kāi)始,在gojuon順序是#21 ),最后是ライス(因?yàn)椁槭牵?9在gojuon命令),你是對(duì)的。
但當(dāng)然,沒(méi)有什么比日本人看起來(lái)那么容易。如前所述,漢字通常會(huì)以不同的方式發(fā)音,具體取決于他們使用的單詞或短語(yǔ)。
角色生的常見(jiàn)(不是全部)發(fā)音 | ||||
術(shù)語(yǔ) | 平假名 | 羅馬 | 五十音圖# | 含義 |
生きる | いきる | 我 kiru | 2 | 為了活著 |
生む | うむ | ü畝 | 3 | 分娩 |
生える | はえる | 哈 ERU | 26 | 增長(zhǎng) |
生命 | いせめい | sei mei | 14 | 生活 |
生涯 | ょしうがい | 守蓋 | 12 | 一生 |
生糸 | きいと | ki ito | 7 | 生絲 |
生魚(yú) | まなざかな | NAMA zakana | 21 | 生魚(yú) |
生方 | ぶうかた | ubu kata | 3 | (正確的名稱(chēng)) |
結(jié)果,相同的漢字字符被發(fā)送到整齊有序的gojuon矩陣。
角色生的共同(不是全部)gojuon位置 | ||||
あ(a) | い(i) | う(你) | え(e) | お(o) |
か(ka) | き(ki) | く(ku) | け(ke) | こ(ko) |
さ(sa) | し(shi) | す(su) | せ(se) | そ(so) |
た(ta) | ち(chi) | つ(tsu) | て(te) | と(to) |
な(na) | に(ni) | ぬ(nu) | ね(ne) | の(不) |
は(ha) | ひ(hi) | ふ(fu) | へ(他) | ほ(浩) |
ま(ma) | み(mi) | む(畝) | め(我) | も(mo) |
や(ya) | ゆ(yu) | よ(喲) | ||
ら(ra) | り(ri) | る(ru) | れ(重新) | ろ(ro) |
わ(wa) | を(wo) | |||
ん(n) |
要解決此問(wèn)題,您需要訪問(wèn)漢字字符串的正確上下文拼音讀數(shù)。我們建議您在LSP或日語(yǔ)朋友的幫助下執(zhí)行此操作,或者稍后再詳細(xì)說(shuō)明。
3.了解微小的符號(hào)和字符以及它們與排序的關(guān)系也許你已經(jīng)查看了一些日文文本,并注意到角色旁邊的小胡須或氣泡?;蛘咭苍S某些角色比其他角色小。這些實(shí)際上是改變他們旁邊角色的發(fā)音的符號(hào),所以如果你要對(duì)一個(gè)單詞的羅馬化版本進(jìn)行排序,這些小標(biāo)記會(huì)產(chǎn)生很大的不同。例如,は(ha)可以變成ば(ba)和ぱ(pa),如下所示。
あ(a) | い(i) | う(你) | え(e) | お(o) |
か(ka)が(ga) | き(ki)ぎ(gi) | く(ku)ぐ(gu) | け(ke)げ(ge) | こ(ko)ご(去) |
さ(sa)ざ(za) | し(shi)じ(ji) | す(su)ず(zu) | せ(se)ぜ(ze) | そ(so)ぞ(zo) |
た(ta)だ(da) | ち(chi)ぢ(ji) | つ(tsu)づ(zu) | て(te)で(de) | と(to)ど(do) |
な(na) | に(ni) | ぬ(nu) | ね(ne) | の(不) |
は(ha)ば(ba)ぱ(pa) | ひ(hi)び(bi)ぴ(pi) | ふ(fu)ぶ(bu)ぷ(pu) | へ(他)べ(be)ぺ(pe) | ほ(ho)ぼ(bo)ぽ(po) |
ま(ma) | み(mi) | む(畝) | め(我) | も(mo) |
や(ya) | ゆ(yu) | よ(喲) | ||
ら(ra) | り(ri) | る(ru) | れ(重新) | ろ(ro) |
わ(wa) | を(wo) | |||
ん(n) |
但是(這可能會(huì)讓你感到寬慰),當(dāng)在gojuon中排序時(shí),這些標(biāo)記會(huì)被忽視。所以は(ha),ば(ba)和ぱ(pa)沒(méi)有區(qū)別。
對(duì)于其他字符后綴的小ゃ(ya),ゅ(yu)和ょ(yo)也是如此,以創(chuàng)建以下雙元音。
基本字符 | +ゃ(ya) | +ゅ(yu) | +ょ(喲) |
き(ki) | きゃ(kya) | きゅ(kyu) | きょ(kyo) |
ぎ(gi) | ぎゃ(gya) | ぎゅ(gyu) | ぎょ(gyo) |
し(shi) | しゃ(sha) | しゅ(shu) | しょ(笑) |
じ(ji) | じゃ(ja) | じゅ(ju) | じょ(jo) |
ち(chi) | ちゃ(cha) | ちゅ(chu) | ちょ(cho) |
に(ni) | にゃ(nya) | にゅ(nyu) | にょ(nyo) |
ひ(hi) | ひゃ(hya) | ひゅ(hyu) | ひょ(hyo) |
び(bi) | びゃ(bya) | びゅ(byu) | びょ(byo) |
ぴ(pi) | ぴゃ(pya) | ぴゅ(pyu) | ぴょ(pyo) |
み(mi) | みゃ(mya) | みゅ(myu) | みょ(myo) |
り(ri) | りゃ(rya) | りゅ(ryu) | りょ(ryo) |
然后你有兩個(gè)其他角色之間出現(xiàn)的小っ(tsu)來(lái)表示雙輔音(如聲門(mén)停止)。例如,まくら(makura =枕頭),まっくら(makkura =音調(diào)黑暗)。這個(gè)小っ的目的與小ゃ,ゅ和ょ不同; 但是,為了本文的目的,它們共享的最重要特征是它們?cè)谂判蜻^(guò)程中與它們的完整版本沒(méi)有區(qū)別。や和ゃ,ゆ和ゅ,よ和ょ,つ和っ被視為同一個(gè)角色。
小學(xué)教科書(shū)的索引頁(yè)面
4.了解分揀計(jì)劃以及可能出現(xiàn)的問(wèn)題我使用從し(shi)開(kāi)始的窄范圍內(nèi)的隨機(jī)字符串測(cè)試Microsoft Excel的排序功能。微軟很好。所有的漢字和假名術(shù)語(yǔ)都以與它們的平假名語(yǔ)音對(duì)應(yīng)物相同的順序排列(將它們視為對(duì)照組)。
排序A:正確的Gojuon排序
但是看一下下一次排序嘗試 - 使用Excel中相同功能排序的相同文本字符串會(huì)產(chǎn)生截然不同的結(jié)果。這次,源文本首先分為平假名和片假名,然后是漢字(與FileMaker相同)。那些漢字以一種對(duì)普通人沒(méi)有意義的方式重新排列,正如你所看到的,它們不再匹配正確排序的平假名字符串。
排序B:不正確的Gojuon排序
發(fā)生了什么?為什么不同?嗯,實(shí)際上,您看不到排序A和排序B之間的源字符串存在差異。
排序A字符串是在Excel中手動(dòng)輸入的,這意味著它們使用平假名鍵入并轉(zhuǎn)換為最終形式為漢字或片假名。 在后臺(tái)的某處,與字符串相關(guān)聯(lián)的語(yǔ)音信息存儲(chǔ)在數(shù)據(jù)中。
另一方面,排序B字符串是從文本文件中復(fù)制和粘貼的,因此它們沒(méi)有伴隨條款的任何語(yǔ)音信息。據(jù)推測(cè),由于漢字是從S-JIS 8E84(私)到90B6(生)依次排序的,因此類(lèi)似于FileMaker的默認(rèn)排序方案被啟動(dòng)。
5.知道如何獲得幫助和洞察力為了基于gojuon進(jìn)行準(zhǔn)確排序,您需要提供語(yǔ)音信息以配合條款。最可靠的方法是咨詢(xún)LSP,但如果您有預(yù)算或時(shí)間問(wèn)題阻止您這樣做,您可以考慮其他選項(xiàng)。
例如,如果你環(huán)顧四周,你可以找到關(guān)于如何以編程方式對(duì)日語(yǔ)漢字詞進(jìn)行排序的討論。使用開(kāi)源詞性和形態(tài)分析器MeCab來(lái)利用IPA詞典將漢字轉(zhuǎn)換為假名似乎是一種方便(盡管不是完美)的方式來(lái)處理這種情況。另一種方法是在GetPhonetic如果您使用的是Microsoft VBA方法。在這里和這里可以找到更多的討論。
日本漢字在JIS之間有不同的排序,JIS是互聯(lián)網(wǎng)上使用的主要編碼; Shift-JIS(SJIS),用于Windows和Macintosh的Microsoft開(kāi)發(fā)的JIS版本; 在UNIX上使用的EUC; 和Unicode(UTF-8,UTF-16),包含世界上所有角色的全球標(biāo)準(zhǔn)。因此,請(qǐng)確保您從一開(kāi)始就完全清楚這一點(diǎn)。這是一個(gè)方便的代碼列表。
最后但同樣重要的是,請(qǐng)留意非gojuon順序更合適的列表。例如,在日本,習(xí)慣上從北到南列出縣,從北海道開(kāi)始到?jīng)_繩結(jié)束。1至47的順序由國(guó)際標(biāo)準(zhǔn)ISO 3166-2:JP規(guī)定。
正如你所看到的,在日本文本排序是位比在西方語(yǔ)言更具挑戰(zhàn)性。但如果你牢記這些特點(diǎn),并保持開(kāi)放的心態(tài)(已經(jīng)準(zhǔn)備好在網(wǎng)上沖浪尋找答案),你就能夠立即克服挑戰(zhàn),并以正確的方式對(duì)日本人進(jìn)行排序。
熱門(mén)照片:來(lái)自卡魯塔甲板的圖片卡(efuda)。Karuta是一個(gè)游戲,其中一個(gè)人從一組短語(yǔ)卡(yomifuda)中讀取,并且玩家嘗試使用正確的角色獲取相應(yīng)的圖片卡。Aiueo-karuta是孩子學(xué)習(xí)平假名的有趣方式。(有趣的事實(shí):“karuta”這個(gè)詞來(lái)自葡萄牙語(yǔ)“carta”(卡),它與葡萄牙商人一起于16世紀(jì)中期進(jìn)入日本。)