「日語(yǔ)翻譯」關(guān)于日語(yǔ)語(yǔ)序你要知道的五件事

admin 2023-08-02 08:27:3175 100

西方語(yǔ)言原生的開(kāi)發(fā)人員常常接近日語(yǔ)，好像它只是另一種語(yǔ)言。源字符串被翻譯，目標(biāo)字符串被排序，一切都變成碎片。在本文中，我們將帶您了解日文文本排序的復(fù)雜性 - 因此您將無(wú)法通過(guò)艱難的方式了解它。

通過(guò)“艱難的方式”，我們的意思是在評(píng)論和用戶(hù)論壇中提供嚴(yán)厲的反饋。實(shí)際上，就在幾年前，一些應(yīng)用程序通過(guò)ASCII碼對(duì)日語(yǔ)進(jìn)行排序，并且它將被大肆宣傳為索引生成功能 - 這將是無(wú)法使用的。這些天，日本人正在接觸到更多的意識(shí)，但挑戰(zhàn)仍然存在 - 如果你不小心，就像潛在的道路危險(xiǎn)。

1.知道你正在處理多個(gè)字符集

首先，要明白日語(yǔ)是一種具有三種不同字符集的語(yǔ)言 - 拼音平假名和片假名，以及語(yǔ)言漢字。平假名和片假名每個(gè)由46個(gè)字符組成，基本上彼此具有1對(duì)1的關(guān)系，并且它們按照gojuon順序排序。大多數(shù)平臺(tái)已經(jīng)支持這種級(jí)別的基本排序，但如果你不是日語(yǔ)，你可能會(huì)有一點(diǎn)麻煩，告訴シ（shi）和ツ（tsu），或リ（ri）和ソ（so）和ン（n）。我們假設(shè)計(jì)算機(jī)將識(shí)別出差異。

不是最簡(jiǎn)單的系統(tǒng)，但是當(dāng)你考慮第三個(gè)字符集漢字時(shí)，事情變得非常困難。日本兒童在小學(xué)時(shí)學(xué)習(xí)了1,006個(gè)漢字字符，而高中則增加到了2,136個(gè)，另外還有983個(gè)漢字專(zhuān)門(mén)用于人們的名字。與您需要學(xué)習(xí)英語(yǔ)的26個(gè)字母相比，這是一個(gè)沉重的負(fù)擔(dān)。

在中國(guó)，漢字的發(fā)源地（稱(chēng)為hànzì），平均識(shí)字需要大約3000個(gè)字符，但是日本人更具挑戰(zhàn)性的是每個(gè)漢字可以有多個(gè)語(yǔ)音讀數(shù) - 這將是你的分類(lèi)和索引機(jī)械中的猴子扳手。

如果您感到無(wú)聊，我建議您通過(guò)NativLang觀看這些視頻，并跳至第4部分。

快速介紹日語(yǔ)“拼寫(xiě)”的復(fù)雜性

2.了解漢字和gojuon之間的脆弱關(guān)系

Gojuon是日本排序的黃金法則。如果你正在處理面向用戶(hù)的任何事情，比如術(shù)語(yǔ)索引，你需要將漢字字符串與kana字符串一起整合到gojuon順序中。

例如，嘗試對(duì)這個(gè)三字列表進(jìn)行排序：[生魚(yú)] [ライス]和[ご飯]。如果你認(rèn)為ご飯應(yīng)該先來(lái)（因?yàn)椁吃趃ojuon順序是＃10 ），接著是生魚(yú)（因?yàn)樯谶@種情況下以な開(kāi)始，在gojuon順序是＃21 ），最后是ライス（因?yàn)椁槭牵?9在gojuon命令），你是對(duì)的。

但當(dāng)然，沒(méi)有什么比日本人看起來(lái)那么容易。如前所述，漢字通常會(huì)以不同的方式發(fā)音，具體取決于他們使用的單詞或短語(yǔ)。

角色生的常見(jiàn)（不是全部）發(fā)音
術(shù)語(yǔ)	平假名	羅馬	五十音圖＃	含義
生きる	いきる	我 kiru	2	為了活著
生む	うむ	ü畝	3	分娩
生える	はえる	哈 ERU	26	增長(zhǎng)
生命	いせめい	sei mei	14	生活
生涯	ょしうがい	守蓋	12	一生
生糸	きいと	ki ito	7	生絲
生魚(yú)	まなざかな	NAMA zakana	21	生魚(yú)
生方	ぶうかた	ubu kata	3	（正確的名稱(chēng)）

結(jié)果，相同的漢字字符被發(fā)送到整齊有序的gojuon矩陣。

角色生的共同（不是全部）gojuon位置
あ（a）	い（i）	う（你）	え（e）	お（o）
か（ka）	き（ki）	く（ku）	け（ke）	こ（ko）
さ（sa）	し（shi）	す（su）	せ（se）	そ（so）
た（ta）	ち（chi）	つ（tsu）	て（te）	と（to）
な（na）	に（ni）	ぬ（nu）	ね（ne）	の（不）
は（ha）	ひ（hi）	ふ（fu）	へ（他）	ほ（浩）
ま（ma）	み（mi）	む（畝）	め（我）	も（mo）
や（ya）		ゆ（yu）		よ（喲）
ら（ra）	り（ri）	る（ru）	れ（重新）	ろ（ro）
わ（wa）				を（wo）
ん（n）

要解決此問(wèn)題，您需要訪問(wèn)漢字字符串的正確上下文拼音讀數(shù)。我們建議您在LSP或日語(yǔ)朋友的幫助下執(zhí)行此操作，或者稍后再詳細(xì)說(shuō)明。

3.了解微小的符號(hào)和字符以及它們與排序的關(guān)系

也許你已經(jīng)查看了一些日文文本，并注意到角色旁邊的小胡須或氣泡?；蛘咭苍S某些角色比其他角色小。這些實(shí)際上是改變他們旁邊角色的發(fā)音的符號(hào)，所以如果你要對(duì)一個(gè)單詞的羅馬化版本進(jìn)行排序，這些小標(biāo)記會(huì)產(chǎn)生很大的不同。例如，は（ha）可以變成ば（ba）和ぱ（pa），如下所示。

あ（a）	い（i）	う（你）	え（e）	お（o）
か（ka）が（ga）	き（ki）ぎ（gi）	く（ku）ぐ（gu）	け（ke）げ（ge）	こ（ko）ご（去）
さ（sa）ざ（za）	し（shi）じ（ji）	す（su）ず（zu）	せ（se）ぜ（ze）	そ（so）ぞ（zo）
た（ta）だ（da）	ち（chi）ぢ（ji）	つ（tsu）づ（zu）	て（te）で（de）	と（to）ど（do）
な（na）	に（ni）	ぬ（nu）	ね（ne）	の（不）
は（ha）ば（ba）ぱ（pa）	ひ（hi）び（bi）ぴ（pi）	ふ（fu）ぶ（bu）ぷ（pu）	へ（他）べ（be）ぺ（pe）	ほ（ho）ぼ（bo）ぽ（po）
ま（ma）	み（mi）	む（畝）	め（我）	も（mo）
や（ya）		ゆ（yu）		よ（喲）
ら（ra）	り（ri）	る（ru）	れ（重新）	ろ（ro）
わ（wa）				を（wo）
ん（n）

但是（這可能會(huì)讓你感到寬慰），當(dāng)在gojuon中排序時(shí)，這些標(biāo)記會(huì)被忽視。所以は（ha），ば（ba）和ぱ（pa）沒(méi)有區(qū)別。

對(duì)于其他字符后綴的小ゃ（ya），ゅ（yu）和ょ（yo）也是如此，以創(chuàng)建以下雙元音。

基本字符	+ゃ（ya）	+ゅ（yu）	+ょ（喲）
き（ki）	きゃ（kya）	きゅ（kyu）	きょ（kyo）
ぎ（gi）	ぎゃ（gya）	ぎゅ（gyu）	ぎょ（gyo）
し（shi）	しゃ（sha）	しゅ（shu）	しょ（笑）
じ（ji）	じゃ（ja）	じゅ（ju）	じょ（jo）
ち（chi）	ちゃ（cha）	ちゅ（chu）	ちょ（cho）
に（ni）	にゃ（nya）	にゅ（nyu）	にょ（nyo）
ひ（hi）	ひゃ（hya）	ひゅ（hyu）	ひょ（hyo）
び（bi）	びゃ（bya）	びゅ（byu）	びょ（byo）
ぴ（pi）	ぴゃ（pya）	ぴゅ（pyu）	ぴょ（pyo）
み（mi）	みゃ（mya）	みゅ（myu）	みょ（myo）
り（ri）	りゃ（rya）	りゅ（ryu）	りょ（ryo）

然后你有兩個(gè)其他角色之間出現(xiàn)的小っ（tsu）來(lái)表示雙輔音（如聲門(mén)停止）。例如，まくら（makura =枕頭），まっくら（makkura =音調(diào)黑暗）。這個(gè)小っ的目的與小ゃ，ゅ和ょ不同; 但是，為了本文的目的，它們共享的最重要特征是它們?cè)谂判蜻^(guò)程中與它們的完整版本沒(méi)有區(qū)別。や和ゃ，ゆ和ゅ，よ和ょ，つ和っ被視為同一個(gè)角色。

小學(xué)教科書(shū)的索引頁(yè)面

4.了解分揀計(jì)劃以及可能出現(xiàn)的問(wèn)題

我使用從し（shi）開(kāi)始的窄范圍內(nèi)的隨機(jī)字符串測(cè)試Microsoft Excel的排序功能。微軟很好。所有的漢字和假名術(shù)語(yǔ)都以與它們的平假名語(yǔ)音對(duì)應(yīng)物相同的順序排列（將它們視為對(duì)照組）。

排序A：正確的Gojuon排序

但是看一下下一次排序嘗試 - 使用Excel中相同功能排序的相同文本字符串會(huì)產(chǎn)生截然不同的結(jié)果。這次，源文本首先分為平假名和片假名，然后是漢字（與FileMaker相同）。那些漢字以一種對(duì)普通人沒(méi)有意義的方式重新排列，正如你所看到的，它們不再匹配正確排序的平假名字符串。

排序B：不正確的Gojuon排序

發(fā)生了什么？為什么不同？嗯，實(shí)際上，您看不到排序A和排序B之間的源字符串存在差異。

排序A字符串是在Excel中手動(dòng)輸入的，這意味著它們使用平假名鍵入并轉(zhuǎn)換為最終形式為漢字或片假名。在后臺(tái)的某處，與字符串相關(guān)聯(lián)的語(yǔ)音信息存儲(chǔ)在數(shù)據(jù)中。

另一方面，排序B字符串是從文本文件中復(fù)制和粘貼的，因此它們沒(méi)有伴隨條款的任何語(yǔ)音信息。據(jù)推測(cè)，由于漢字是從S-JIS 8E84（私）到90B6（生）依次排序的，因此類(lèi)似于FileMaker的默認(rèn)排序方案被啟動(dòng)。

5.知道如何獲得幫助和洞察力

為了基于gojuon進(jìn)行準(zhǔn)確排序，您需要提供語(yǔ)音信息以配合條款。最可靠的方法是咨詢(xún)LSP，但如果您有預(yù)算或時(shí)間問(wèn)題阻止您這樣做，您可以考慮其他選項(xiàng)。

例如，如果你環(huán)顧四周，你可以找到關(guān)于如何以編程方式對(duì)日語(yǔ)漢字詞進(jìn)行排序的討論。使用開(kāi)源詞性和形態(tài)分析器MeCab來(lái)利用IPA詞典將漢字轉(zhuǎn)換為假名似乎是一種方便（盡管不是完美）的方式來(lái)處理這種情況。另一種方法是在GetPhonetic如果您使用的是Microsoft VBA方法。在這里和這里可以找到更多的討論。

日本漢字在JIS之間有不同的排序，JIS是互聯(lián)網(wǎng)上使用的主要編碼; Shift-JIS（SJIS），用于Windows和Macintosh的Microsoft開(kāi)發(fā)的JIS版本; 在UNIX上使用的EUC; 和Unicode（UTF-8，UTF-16），包含世界上所有角色的全球標(biāo)準(zhǔn)。因此，請(qǐng)確保您從一開(kāi)始就完全清楚這一點(diǎn)。這是一個(gè)方便的代碼列表。

最后但同樣重要的是，請(qǐng)留意非gojuon順序更合適的列表。例如，在日本，習(xí)慣上從北到南列出縣，從北海道開(kāi)始到?jīng)_繩結(jié)束。1至47的順序由國(guó)際標(biāo)準(zhǔn)ISO 3166-2：JP規(guī)定。

正如你所看到的，在日本文本排序是位比在西方語(yǔ)言更具挑戰(zhàn)性。但如果你牢記這些特點(diǎn)，并保持開(kāi)放的心態(tài)（已經(jīng)準(zhǔn)備好在網(wǎng)上沖浪尋找答案），你就能夠立即克服挑戰(zhàn)，并以正確的方式對(duì)日本人進(jìn)行排序。

熱門(mén)照片：來(lái)自卡魯塔甲板的圖片卡（efuda）。Karuta是一個(gè)游戲，其中一個(gè)人從一組短語(yǔ)卡（yomifuda）中讀取，并且玩家嘗試使用正確的角色獲取相應(yīng)的圖片卡。Aiueo-karuta是孩子學(xué)習(xí)平假名的有趣方式。（有趣的事實(shí)：“karuta”這個(gè)詞來(lái)自葡萄牙語(yǔ)“carta”（卡），它與葡萄牙商人一起于16世紀(jì)中期進(jìn)入日本。）

本文地址： http://memelala.com/fanyiyuzhong/20230802/9284.html

版權(quán)聲明：文章來(lái)源網(wǎng)絡(luò)聚合，如有問(wèn)題請(qǐng)聯(lián)系刪除。