|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: [Fw: ] tsi-src2.patch....大家看一下 ...:) |
| From: | id5id5@tcts1.seed.net.tw |
| Date: | Fri, 25 Aug 2000 17:15:01 +0800 (CST) |
| To: | xcin@linux.org.tw |
| Reply-To: | xcin@linux.org.tw |
On Fri, 25 Aug 2000 thhsieh@linux.org.tw wrote:
> : > 因為"一拉"這個詞已經存在,而後面也有"之下"這個詞
> : > 等於說"一拉之下"這個詞是多餘的..所以砍了.:P
> :
> : 這種因為已經有 A、B 所以刪去 AB 的作法恐怕有點小問題。舉個假
> : 設的例子,如果有「阿公」和「店」了,是不是就把「阿公店」刪掉
> : 呢?大概不是吧。詞條是否適當,還是應該從「詞」的地位來看。如
> : 果是一個詞,就該留下來。不能用「有沒有用」這種觀點來看。
> :
> : 我再舉一個例子說明為什麼不能這樣砍。假設「優惠」、「待遇」、
> : 「優惠待遇」都在詞庫中,當使用者打 "you1 hui4 dai4 yu4" 時,程式
> : 可以找到「優惠待遇」。但如果你把「優惠待遇」刪了,麻煩就來了
> : 。「待遇」也許沒問題,但是「優惠」、「幽會」怎麼辦?當然在這
> : 個例子裡,「優惠」的頻率比「幽會」高,靠頻率瞎猜也會猜對,但
> : 你不會總是這麼幸運。
>
> 嗯! 當初我和 ID5 兄私下討論時,確實沒考慮到這種情況。
> 看來實際情況真的複雜很多。
嗯..我認為接下來如果還要作類似的工作
可以先去參考後面有沒有相關的詞,以及頻率
再來考慮要不要砍....
我當初有想到這類的問題,所以自己看一下"ㄓ ㄒㄧㄚˋ"
是否有重複的音,但是並沒有,我才敢這樣大膽的去砍:P
> > 3.有少數我沒看過的詞我也是砍了..
>
> : 沒看過的項目通常有兩種可能:一、它是詞,但你沒看過;二、它不
> : 是詞,你當然沒看過。因為沒看過就砍,恐怕會造成一些誤砍的狀況。
>
> 為了避免這樣的情況發生,我提議要有 review 的制度,也就是,當
> 一個人將詞庫砍過後,在 commit 回 source 之前必須要有其他人
> review 過才行。當然這樣做還是無法完全避免誤砍的狀況,但至少
> 可以將機率降低。
嗯...我也是希望有人能幫忙review...
否則有一些詞我也不知道是否該砍....
> 所以, ID5 兄的 patch 中,將很多以「一」開頭的詞原本有注音的都拿掉
> 了,就是希望享受如上的便利。但問題是,這會造成一些奇怪的破音字組合
> 跑出來。例如上頭的 "ㄧˊ ㄖㄣˊ ㄈㄣˋ",我相信大家再怎麼樣也不
> 可能打這樣的音的。再以「一了百了」為例: 拿走它原有的注音後,就會跑
> 出這種組合:
>
> "ㄧˋ ㄌㄜ˙ ㄅㄞˇ ㄌㄜ˙"
> "ㄧˊ ㄌㄜ˙ ㄅㄞˇ ㄌㄜ˙"
> "ㄧˊ ㄌㄧㄠˇ ㄅㄞˇ ㄌㄜ˙" ........ etc
嗯..其實這幾天我也再想...這個問題..
如居士兄您所說的,"一"這個音會有三種音...
分別是一聲,二聲,還有四聲(嗯..我臨時想不到三聲的)
原本的tsi.src裡頭這三種都有..但是有些人(嗯..可能是少數人)
看到"一"都習慣打一聲..我當初也有想到後面的詞
可能會受影響..可是我不知道這樣作會加大tsi.db和yin.db@@..
我也想過是否可以一個詞有兩種音..
不過當初我認為這樣會變胖...才沒這樣作:P
> 而這些明顯錯誤的組合最大的影響就是,佔用系統資源,雖然我們根本不會
> 去打那些音,但那些音所佔用的系統資源就會直接反應在加大的 tsi.db 與
> yin.db 檔上。這就有違我們的初衷了,因為我們去蕪存菁的目的原本是希
> 望最後出來的詞庫檔可以縮小。
>
> 因此,現階段我建議對於這類的已有音的詞,還是先不要將它的音拿走好了,
> 我們現階段還是先將焦點放在移除明顯錯誤、無用的詞。而長遠來看,我覺
> 得 libtabe 的 tsiadd, tsiyindump .... 等工具程式需要修改,也就是它
> 們至少要能看得懂更複雜一點的 tsi.src 語法,像這樣:
>
> "[ㄧ,ㄧˋ] ㄌㄧㄠˇ ㄅㄞˇ ㄌㄧㄠˇ"
>
> 如此既可兼顧使用者的便利性,又可避免跑出一堆無用的破音字組合。等程
> 式改好後,我建議我們可以慢慢將一些沒有音的詞的注音補上去 (特別是那
> 些有破音字的部分)。
嗯...這個不錯...如此一來可以減少許多麻煩@@..
> 以上是我的 purposal :-)) 而程式修改的部分我再來弄弄看,希望不會很
> 難 :-)) 各位對以上的提議若有其他意見,請盡量提出,大家多討論討論。
其實當初的那麼patch放出來是希望大家多給一點意見..
沒考量到那麼多...:P
以上是我的想法..:)
ID5~~
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: [Fw: ] tsi-src2.patch....大家看一下...:) From: Chih-Hao Tsai <hao520@yahoo.com> |
|---|---|---|
| Next: |
Re: libtabe tsi.src improvement From: "Edward Lee" <edward.@kimo.com> |
|
| Indexed By Thread | Previous: |
Re: [Fw: ] tsi-src2.patch....大家看一下...:) From: Chih-Hao Tsai <hao520@yahoo.com> |
| Next: |
[Fw: ] Re: tsi-src2.patch....大家看一下...:) From: thhsieh@linux.org.tw |