|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: about xcin and addtsi.... |
| From: | thhsieh@linux.org.tw |
| Date: | Sat, 9 Dec 2000 15:52:25 +0800 |
| To: | xcin@linux.org.tw |
| Reply-To: | xcin@linux.org.tw |
: > 是不是可以考慮一個簡單一點的做法? : > 例如,現在 libtabe 中已有某讀音中每個字字頻排序表,例如:> : > ㄎㄜ4: 客 課 刻 克 .... : : 破音字的發音,如果不標頻率,至少要照頻率排序過,才能避免打「 : ㄎㄜˋ」跑出「可」來。如果使用者打「ㄎㄜˋ」,固然「可」是含 : 有這個音的最高頻字,但是「ㄎㄜˋ」不是這個字的主要發音。如果 : 單音節詞選字時可以避開該音節不是主要發音的字,只從那個音是主 : 要發音的字裡面挑,應該就比較不會遇到這種問題了。 因此,這部分的改進要從兩方面下手 .... 在詞庫那邊,每個字、詞如果有破音字讀音的話,應該將使用頻率 較高的讀音擺在前面,按順序排好。 在 bims 程式那邊,程式在根據音來選字時,如果無法根據前文在 詞庫中找到詞,而必須就此單一個字來選字時,不能直接從詞庫中 直接挑出該字詞頻最高者,而必須: 1. 從目前已內建在 libtabe 中某讀音的字序表 (根據倚天中文的 標準) 中挑出正確的字。 2. 或者,如果從詞庫挑字出來時,還要注意該讀音是否為該字的 常用的讀音?例如 "ㄎㄜˋ" 如果挑出 "可",但發現它不是常 用讀音,就不能用,要試著挑下一個。 那一種比較容易寫?我覺得 1 可能比較容易,因為現成的字序表 在 libtabe 裡頭已經內建了,頂多再提供一個 API 就可以讓 bims 直接取用了。如果要走 2 的話,可能最好每個字的各種讀音的使用 頻率也要有,比較好判斷。原因是,有些字的讀音的使用率雖不同, 但差異的程度不同可能影響判斷的正確性。 例如 "ㄎㄜˋ" 音,出現在 "可" 字幾乎不可能,也就是二者的使 用率可能差十萬八千里,這種情況就直接丟掉不要用了。但 "一" 字,其讀音有 "ㄧ" "ㄧ2" "ㄧ4" 三種,使用率可能是 1:2:3 , 雖有差別,但沒差到十萬八千里的呈度。因此,當使用者打 "ㄧ" 時,到底要用 "一" 字還是 "依" 字,就要小心了。如果不考慮字 音使用率的差異呈度,說不定程式會挑到 "依" 而非 "一",這樣 就不太對了。 因此,我認為 1 在現階段會比較容易實作。至於 2 的話,不曉得 志皓兄覺得如何?我們的詞庫中需不需要也建入每個字的「音頻」 資料?如果要的話,要做到什麼呈度? a. 只建單字詞的音頻,例如: <單字詞> <詞頻> 讀音1 讀音2 音頻1 音頻2 b. 連多字詞都要建入 (這就有點累了 :-)) 另外,如果要建的話,我建議「音頻」都 normalize 成頻率最 高者為 1。像這樣: 可 <詞頻> ㄎㄜ3 ㄎㄜ4 1.0 0.00001 這樣,如果該字 (詞) 只有一種讀音時,其音頻自然是 1.0,看起 來比較不會奇怪 :-)) 還有,這個「音頻」建議最好不要與頻詞混在一起,也就是不要與 詞頻加權一起計算,二者應該分開。如果在某些應用場合一定要二 者合併計算的話,就在程式端另外處理。 T.H.Hsieh To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: 全民注音運動開始了 From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw> |
|---|---|---|
| Next: |
Re: tsi.src ?w???? From: thhsieh@linux.org.tw |
|
| Indexed By Thread | Previous: |
Re: about xcin and addtsi.... From: thhsieh@linux.org.tw |
| Next: |
YOU CAN MAKE ALOT OF MONEY AT HOME, PART-TIME. From: friends@enterprises200iv.com |