Great Circle Associates

XCIN Mail-list
(December 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: 關於 bims 猜詞
From: Chih-Hao Tsai <hao520@yahoo.com>
Organization: Taiwan Linux User Group News Server
Date: Sat, 09 Dec 2000 17:30:31 -0600
To: xcin@tlug.sinica.edu.tw
Reply-To: xcin@linux.org.tw

Kuang-che Wu wrote:
> 
> 1. 從 Chih-Hao Tsai 兄的網站上看到關於 CScanner/MMSEG 的說明,
>    其中使用單字詞的字頻來作 disambiguation,
>    在以前的文章也提到使用詞頻來斷詞似乎不是很有效
>    而 bims 中的猜詞演算法, 並沒有使用單字頻斷詞,
>    取而代之的是用累計詞頻來作 disambiguation
>    好奇是為了什麼用後者取代前者呢?

斷詞時用單字的字頻,是用來作為單字詞的「詞頻」的估計。因為九
六年做的時候,還沒有公開的詞頻統計。(其實我最早也想用詞頻的
對數總和來試,但那時沒有詞頻統計。)

為什麼要看單字的詞頻呢?因為中文裡很多字本身成為單字詞的機會
並不高。所以用這個來評估斷詞結果的可能性。至於使用詞頻總合,
則是直接累計三個詞的出現機率來判斷。都有其邏輯上的合理性。

在猜詞時要處理的不是字而是音節,中文同音字多,所以原本的算法
就不太好直接套用。這部分可能由百翔兄來解釋,會比較清楚。



--
Chih-Hao Tsai | ICQ#5734422 | http://www.geocities.com/hao520
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


References:
Indexed By Date Previous: Re: 兒化韻的注音
From: edward@linux.dreamer.org (Edward Lee)
Next: Re: [Anno] xcin cvs server
From: thhsieh@linux.org.tw
Indexed By Thread Previous: 關於 bims 猜詞
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>
Next: Re: 關於 bims 猜詞
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>