Great Circle Associates

XCIN Mail-list
(December 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: about xcin and addtsi....
From: thhsieh@linux.org.tw
Date: Sat, 9 Dec 2000 15:52:25 +0800
To: xcin@linux.org.tw
Reply-To: xcin@linux.org.tw

: > 是不是可以考慮一個簡單一點的做法?
: > 例如,現在 libtabe 中已有某讀音中每個字字頻排序表,例如:> 
: > ㄎㄜ4:  客 課 刻 克 ....
: 
: 破音字的發音,如果不標頻率,至少要照頻率排序過,才能避免打「
: ㄎㄜˋ」跑出「可」來。如果使用者打「ㄎㄜˋ」,固然「可」是含
: 有這個音的最高頻字,但是「ㄎㄜˋ」不是這個字的主要發音。如果
: 單音節詞選字時可以避開該音節不是主要發音的字,只從那個音是主
: 要發音的字裡面挑,應該就比較不會遇到這種問題了。

因此,這部分的改進要從兩方面下手 ....

在詞庫那邊,每個字、詞如果有破音字讀音的話,應該將使用頻率
較高的讀音擺在前面,按順序排好。

在 bims 程式那邊,程式在根據音來選字時,如果無法根據前文在
詞庫中找到詞,而必須就此單一個字來選字時,不能直接從詞庫中
直接挑出該字詞頻最高者,而必須:

1. 從目前已內建在 libtabe 中某讀音的字序表 (根據倚天中文的
   標準) 中挑出正確的字。

2. 或者,如果從詞庫挑字出來時,還要注意該讀音是否為該字的
   常用的讀音?例如 "ㄎㄜˋ" 如果挑出 "可",但發現它不是常
   用讀音,就不能用,要試著挑下一個。

那一種比較容易寫?我覺得 1 可能比較容易,因為現成的字序表
在 libtabe 裡頭已經內建了,頂多再提供一個 API 就可以讓 bims
直接取用了。如果要走 2 的話,可能最好每個字的各種讀音的使用
頻率也要有,比較好判斷。原因是,有些字的讀音的使用率雖不同,
但差異的程度不同可能影響判斷的正確性。

例如 "ㄎㄜˋ" 音,出現在 "可" 字幾乎不可能,也就是二者的使
用率可能差十萬八千里,這種情況就直接丟掉不要用了。但 "一"
字,其讀音有 "ㄧ" "ㄧ2" "ㄧ4" 三種,使用率可能是 1:2:3 ,
雖有差別,但沒差到十萬八千里的呈度。因此,當使用者打 "ㄧ"
時,到底要用 "一" 字還是 "依" 字,就要小心了。如果不考慮字
音使用率的差異呈度,說不定程式會挑到 "依" 而非 "一",這樣
就不太對了。

因此,我認為 1 在現階段會比較容易實作。至於 2 的話,不曉得
志皓兄覺得如何?我們的詞庫中需不需要也建入每個字的「音頻」
資料?如果要的話,要做到什麼呈度?

a. 只建單字詞的音頻,例如:

	<單字詞> <詞頻> 讀音1 讀音2  音頻1 音頻2

b. 連多字詞都要建入 (這就有點累了 :-))

另外,如果要建的話,我建議「音頻」都 normalize 成頻率最
高者為 1。像這樣:

	可 <詞頻> ㄎㄜ3 ㄎㄜ4  1.0  0.00001

這樣,如果該字 (詞) 只有一種讀音時,其音頻自然是 1.0,看起
來比較不會奇怪 :-))

還有,這個「音頻」建議最好不要與頻詞混在一起,也就是不要與
詞頻加權一起計算,二者應該分開。如果在某些應用場合一定要二
者合併計算的話,就在程式端另外處理。


T.H.Hsieh
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message

Indexed By Date Previous: Re: 全民注音運動開始了
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>
Next: Re: tsi.src ?w????
From: thhsieh@linux.org.tw
Indexed By Thread Previous: Re: about xcin and addtsi....
From: thhsieh@linux.org.tw
Next: YOU CAN MAKE ALOT OF MONEY AT HOME, PART-TIME.
From: friends@enterprises200iv.com