再談漢字字庫與形音義

在〈略談人名數事〉中我問了一個問題:現在在書上出現的「凪」這個字,可以暫時不管讀音,但當這個字必須被發音時,該發什麼音?五月中時有人在 PTT C_Chat 板問了一樣的問題,回文中有人丟了一個來自CNS11643中文標準交換碼全字庫﹝簡稱全字庫﹞的連結。全字庫中有收錄「凪」,也有讀音「ㄓˇ」,這是不是已經解決「凪」在華語中沒有讀音的問題了呢?我們可以據此宣稱「凪」已經進入漢語了嗎?

我認為在配音實務上「凪」沒有讀音的問題已經解決。雖然比我預期的早很多,但如果有權威機關﹝行政院主計處﹞的資料可以引用,配音的單位應該也會直接引用全字庫標出的讀音。可是我們並不能因為主計處發展的全字庫中有這個字,就貿然斷定「凪」和其它出現在全字庫中的漢字是漢語中原有的漢字。

仍然以「凪」為例,這個字可以確定是原生於日語的和製漢字,光這一點就可以否定「凪是漢語原有字」的論點;不過也沒人持這個論點。再者,全字庫的建置目的之一是「解決個人電腦中文字數不足問題」,所以建置者會盡可能窮盡所有的漢字,而漢字的語言學面向並不是這個字庫的重點。所以我們可以在這個字庫中看到許多罕見字、死字、非漢語字,但實際上有許多字都是漢字的 native reader 不認識的字。「凪」應該是為了窮盡世上的漢字才被收錄的,又因為字庫中有「發音」的欄位,所以它很有可能已經經過「不得不出現語音資訊的狀況」,才有現在登錄在字庫中的發音。既然全字庫不是為了語言學研究建置的,就不可以貿然將其內容當成權威資料引用。漢字的語音資訊,還是應該透過直接的觀察來取得。

從以上討論又可以衍生出一個新的問題:我們該如何證明某字是漢語中原有的漢字?

之前我在〈「谷歌」的語言學分析兼筆記〉提過納入字庫的 GPS Principle:「一個被確實納入﹝漢語﹞字庫的漢字,必須在該語言社群中有穩定、互相關連的形音義 (GPS)」。心理學的唸名實驗可以用來測試 G 和 P 的關連性,但用在這裡時,受試者的反應時間並不是研究的對象,我們反而要加入受試者間的可理解性。也就是說,受試者可以花比較長的時間來想一個字的讀音,但這個讀音必須是別人聽得懂的讀音。我還沒去想詳細的實驗方法,但可以預料這個實驗肯定要花很多很多很多時間,會累死受試者,也會累死實驗者。如果還要加上 sanction,那還會是個滿花錢的實驗。所以評估的結論會不會是「預算上不具可行性」呢? XD

測試完 G 和 P 的關連性之後,我們可以把 G 和 P 視為一個整體 Signified,然後再去測試 Signified 和 Signifier 的關連性。不過一個一個字拿去問受試者的話,受試者會抓狂,而我光想就受不了。有沒有更簡單一點的方法?或許我們可以先從字頻下手,把在現代文獻中高頻率出現的字排除﹝這裡必須 arbitrarily 設定排除的 threshold 頻率﹞,前題是會出現在現代文獻中的字都應該是 G 和 S 穩定關連的字,不需要一個一個測試。用字頻排除常用字之後,就只剩下罕用字需要測試,可以省下不少時間。經過這兩個實驗得到的漢語字庫﹝嚴格說來是華語字庫﹞,就可以確定是最新鮮的資料。

如果我們沒時間也沒能力進行上述的實驗,那有沒有替代的方法?有的,就直接找一個有考慮語言學面向的字庫來當 benchmark。而「有考慮語言學面向的字庫」這個又長又拗口的名字,其實就是「字典」。字典中有形有音也有義,GPS 三者都有,本身就是很好用的字庫。唯字典還是由少數學者制定的 prescriptive 字庫,它也可能會繼承早期的版本而納入近代已不通用的字,所以字典並不是完美的 descriptive 字庫,但在沒有 descriptive 字庫前,字典可以先頂著用。

將字典當成字庫時,選擇字典時須注意幾點。第一,因為字典是刻意編輯的產物,所以收錄的漢字就像主計處的全字庫一樣是刻意挑選的。因此,選用字典當字庫時,需要注意編輯者的編輯目的。若要用教育部國語辭典,就須注意到它收錄了許多當代的新詞新字;若要用《康熙字典》,就要注意到〈御製序〉中說的「一音一義之可採者靡有遺逸」,它採用的是窮盡漢字的方法。因為編輯目的的差異,當我要確認一個字是不是漢語中原有的,我會參考《康熙字典》;如果要確認它是不是當代的漢字,我會參考教育部國語辭典。當然從小用到大的《國語日報字典/辭典》也是可以參考的對象,市面上也有很多字辭典可用,但我手邊都沒有這幾本,所以暫時略過。附帶一提,台灣的辭典好像都跟不上時代脈動,2006年7月曾泰元教授的〈英文字典抓住脈動,中文詞典如老古董〉一文中已有批判。

不過直接假設字典收錄的漢字有形有音也有義,其實稍微忽略了一個問題:我們不知道字典的編輯者有沒有經過「不得不讀出來」的情況。因為字典的編輯目的就是提供漢字的形音義,所以字典中的漢字有形有音也有義,其實是編輯的結果,不見得反應語言的自然狀況。對此,我還想提出基進的主張。我認為任何一個文字本身都是沒有語音的,語音都是文字的讀者自己加上去的。我們會認為文字有語音,是因為我們已經習慣在讀出某字時,旁人能知道我們讀的是哪個字。事實上,這只是共同的習慣,甚至是經常出現的偶然。並不能由此證明文字帶有語音。這提醒我們在收集 descriptive 字庫時,應該要注意到 reader、speaker、listener 的角色,以及語言符號在三者間的 agreement﹝我不大想把它寫成「合意」,也還沒想到合適的詞彙來描述這件事,只好暫用英文﹞。

PS: 從第三段以後我邊寫邊想,我會不會寫太多了?會不會太多話了?會不會沒有學生應有的 conduct?會不會給人抄襲的機會?和其他在網路上提到自己研究的研究者相比﹝如豬小草、Richter、Hetero、Jerry......等等﹞,我的確說得有點多。雖然我還是在研究方法上留了很多手﹝由此可知上文某句話是假的﹞,但已經把一些想法寫在出來了。三個月前我在〈類似遺言的獨白〉中還敢說自己不怕別人抄,現在怎麼開始擔心了呢?大概是因為五月底在《香港Yahoo!知識》發生的違反CC條款事件讓我開始擔心了吧。

分類: 關於語言的思考
FreeLeaf 發表於 ephemeris│2007年06月27日 23:11│[列印版]
Cite this article

本著作物依照創用 CC「姓名標示-非商業性-禁止改作 2.0 台灣」授權使用。
重製、散布、展示及演出本著作時請註明本文的授權條款,以便您的讀者再次使用。
詳細轉載規定。簡單授權‧輕鬆使用 ,更多創用CC的資訊請見:CC Taiwan

本站/本文網址可自由轉貼,自由連結,自由使用

Citing with MLA format:
FreeLeaf. "再談漢字字庫與形音義." :: ephemeris ::. 27 2007年06月. <http://mt.leafportal.org/archives/001894.html>.

Citing with APA format:
FreeLeaf. (2007, 6). 再談漢字字庫與形音義 Retrieved from http://mt.leafportal.org/archives/001894.html

TrackBack URL for this entry:
http://mt.leafportal.org/mt-tb.cgi/1514

Check In-bound Links with Talk Digger:
In-bound Links to "再談漢字字庫與形音義"

以下是引用本文的記錄

Comments