Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: 一些字詞辦正及發音的問題
From: thhsieh@tlug.sinica.edu.tw
Date: Tue, 2 Jan 2001 11:23:34 +0800
To: xcin@linux.org.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.2.5i

: 從 libtabe 的 doc/libtabe.sgml
: 155行
: <item>ZhiInfo:一個中文字的資料結構。透過這個資料結構,
:                可以取得許多有關這個字的資訊。yin 中存放這個字的讀音,
:                最多四個。
: 246行
: CMEX 的屬性檔中,一個中文字最多有四種讀音。
: 
: 在 src/tabe.h 的 25 行, 可以看到
: struct ZhiInfo {
:   ZhiCode           code;
:   Zhi               chct;
:   Yin               yin[4];
:   unsigned long int refcount; /* should be obsoleted soon */
: };

我剛剛大略看了一下 libtabe 程式碼,初步認為應該不會造成問題,同時
我也實地測試了那幾個超過四種讀音的字 (詞),似乎也沒什麼問題。以下
我說明一下,如有錯誤之處,請蕭百翔兄、蔡志浩兄補充 :-)

有用到 ZhiInfo 這個 struct 只有在 tabe_tsi.c 與 tabe_yin.c, 其中在
tabe_tsi.c 中是 tabeTsiInfoLookupPossibleTsiYin() 函式,我猜它的
作用是假如我們的詞庫檔中某些詞沒有注音時 (就像現在的情況),它會到
目前 libtabe 的字音碼表中將所有的注音全部挖出來然後補上去。而這個
注音碼表是 _ZhiYinTable[], 寫在 tabe_zhi2yin.h, include 在 tabe_yin.c
中,每個字上限只有四個音。

因此,如果詞庫中單字詞的音超過四個的話,是不會有影響的,因為這些單
字詞是以「詞」來處理,而非「字」來處理。如「詞」來處理者是沒有音數
目的上限的。而以「字」來處理者,就以 _ZhiYinTable[] 的內容為準。

於是,這裡我們面臨另一個問題,_ZhiYinTable[] 裡頭每個字的音都是寫
死的,而且多半會有缺漏音,而且有音數目的上限。我的建議是,暫時先不
管它。等我們將詞庫填補、review 的工作完成後,理論上詞庫中的音都是
正確而且定案了,我再用程式搜尋詞庫中的資料,將 _ZhiYinTable[] 重新
校正一遍。同理,phone.cin 也可以這樣子來校正一遍。至於是否要擴充
ZhiInfo 的音數目上限,到時再來考慮。因為如果要擴充的話,程式改起
來可能不太容易,因為這個上限並沒有用 #define 來處理。而且,可能也
比較沒有那麼必要性。

至於 pinyin.cin, 我不確定是否也要做校正,因為拼音與國語注音其實有
差,而且已有不少人希望我將這個 pinyin.cin 改成目前微軟漢語拼音的
格式。而我其實也打算這麼做,至少再提供一個 pinyin2.cin 以漢語拼音
來編排。只是我真的沒用過漢語拼音,字碼、字序都不知道,這一點還需
要有興趣的朋友來幫忙 :-))


T.H.Hsieh

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Indexed By Date Previous: Add Tsi
From: Tzu-hsien Yu <thyu@ck.tp.edu.tw>
Next: [Update] xcin-2.5.2.2
From: thhsieh@tlug.sinica.edu.tw
Indexed By Thread Previous: Re: 一些字詞辦正及發音的問題
From: Edward Lee <edward.@kimo.com>
Next: Re: 一些字詞辦正及發音的問題
From: thhsieh@tlug.sinica.edu.tw