|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: 關於 bims 猜詞 |
| From: | Chih-Hao Tsai <hao520@yahoo.com> |
| Organization: | Taiwan Linux User Group News Server |
| Date: | Sat, 09 Dec 2000 17:30:31 -0600 |
| To: | xcin@tlug.sinica.edu.tw |
| Reply-To: | xcin@linux.org.tw |
Kuang-che Wu wrote: > > 1. 從 Chih-Hao Tsai 兄的網站上看到關於 CScanner/MMSEG 的說明, > 其中使用單字詞的字頻來作 disambiguation, > 在以前的文章也提到使用詞頻來斷詞似乎不是很有效 > 而 bims 中的猜詞演算法, 並沒有使用單字頻斷詞, > 取而代之的是用累計詞頻來作 disambiguation > 好奇是為了什麼用後者取代前者呢? 斷詞時用單字的字頻,是用來作為單字詞的「詞頻」的估計。因為九 六年做的時候,還沒有公開的詞頻統計。(其實我最早也想用詞頻的 對數總和來試,但那時沒有詞頻統計。) 為什麼要看單字的詞頻呢?因為中文裡很多字本身成為單字詞的機會 並不高。所以用這個來評估斷詞結果的可能性。至於使用詞頻總合, 則是直接累計三個詞的出現機率來判斷。都有其邏輯上的合理性。 在猜詞時要處理的不是字而是音節,中文同音字多,所以原本的算法 就不太好直接套用。這部分可能由百翔兄來解釋,會比較清楚。 -- Chih-Hao Tsai | ICQ#5734422 | http://www.geocities.com/hao520 To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: 兒化韻的注音 From: edward@linux.dreamer.org (Edward Lee) |
|---|---|---|
| Next: |
Re: [Anno] xcin cvs server From: thhsieh@linux.org.tw |
|
| Indexed By Thread | Previous: |
關於 bims 猜詞 From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw> |
| Next: |
Re: 關於 bims 猜詞 From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw> |