Great Circle Associates

XCIN Mail-list
(August 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: [Fw: ] tsi-src2.patch....大家看一下...:)
From: Chih-Hao Tsai <hao520@yahoo.com>
Organization: Taiwan Linux User Group News Server
Date: Thu, 24 Aug 2000 22:41:35 -0500
To: xcin@tlug.sinica.edu.tw
Reply-To: xcin@linux.org.tw

thhsieh@linux.org.tw wrote:
> 
> : 我再舉一個例子說明為什麼不能這樣砍。假設「優惠」、「待遇」、
> : 「優惠待遇」都在詞庫中,當使用者打 "you1 hui4 dai4 yu4" 時,程式
> : 可以找到「優惠待遇」。但如果你把「優惠待遇」刪了,麻煩就來了
> : 。「待遇」也許沒問題,但是「優惠」、「幽會」怎麼辦?當然在這
> : 個例子裡,「優惠」的頻率比「幽會」高,靠頻率瞎猜也會猜對,但
> : 你不會總是這麼幸運。
> 
> 嗯! 當初我和 ID5 兄私下討論時,確實沒考慮到這種情況。
> 看來實際情況真的複雜很多。

基本上詞庫的用途就是利用大單位來為小單位作 disambiguation。
像念 you1 的字至少有五個。但是加一個音,念 you1 hui4 的詞只
有「優惠」和「幽會」,所以 you1 的可能的字就從五個減為兩個。
再加一個音,念 dai4 的字有十幾個,但這時也不能決定要選哪一個
。到了第四個音,因為這四個音組成的 pattern 在詞庫中找得到,
所以四個音的字都可以確定了。由兩個或多個多字詞組成的長詞不宜
貿然刪除,這是原因之一。

其實四個音還不算大。例如「幽會帶玉米去吃比較好玩」,只看四個
音,搶到「優惠待遇」,結果就錯了。等到 mi3 出來,就有「優惠
待遇  米」和「幽會  帶  玉米」兩種可能了。除非「幽會帶玉米」
也在詞庫中(不太可能),否則就要有別的方法來判斷。這裡的重點
有二。一、詞庫裡的大單位有時有幫助,有時卻幫倒忙。二、不管大
單位幫不幫得上忙,在這個例句裡,不到第五個音,無法正確選出前
四個字。所以還是利用大單位來為小單位作 disambiguation,只不
過需要複雜一點的方法。



--
Chih-Hao Tsai | ICQ#5734422 | http://profiles.yahoo.com/hao520
Search ldap://certserver.pgp.com or email me for PGP public key.
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


References:
Indexed By Date Previous: Re: [Fw: ] tsi-src2.patch....大家看一下...:)
From: thhsieh@linux.org.tw
Next: Re: [Fw: ] tsi-src2.patch....大家看一下 ...:)
From: id5id5@tcts1.seed.net.tw
Indexed By Thread Previous: Re: [Fw: ] tsi-src2.patch....大家看一下...:)
From: thhsieh@linux.org.tw
Next: Re: [Fw: ] tsi-src2.patch....大家看一下 ...:)
From: id5id5@tcts1.seed.net.tw