|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: addtsi |
| From: | thhsieh@tlug.sinica.edu.tw |
| Date: | Thu, 4 Jan 2001 23:33:56 +0800 |
| To: | xcin@tlug.sinica.edu.tw |
| Delivered-To: | xcin-gate@tlug.sinica.edu.tw |
| Delivered-To: | xcin-list@tlug.sinica.edu.tw |
| Reply-To: | xcin@tlug.sinica.edu.tw |
| User-Agent: | Mutt/1.2.5i |
: > > TSI = 再把 : 在和再是蠻麻煩的東西.. : 這可能得靠語境分析才行了 : 每個再xx都當作詞來加也不是辦法.. : : > > TSI = 仍依 : > > TSI = 餘人 : > > TSI = 盼了 : > 這幾個似乎不能算是詞吧. : 但是像這些東西如果在xcin裡面直接打都會選錯字 : 而且這些詞也是蠻常出現的.. : 每次都要選也蠻麻煩的呢...^^ : : 像這種不算"詞"的詞要怎麼辦呢??.. 由於受限於 libtabe 的猜字 (詞) 演算法,也沒有語境分析可用, 所以這些看來「不像詞」的詞,暫時只好收入了 :-(( 就您新加的這些詞中,「最後一」我沒有收,因為「一」後頭接的 字詞目前詞庫已相當豐富,故程式在斷詞時應該都可以正確斷出 「最後」「一XXXX」,故應該不需要「最後一」,而且這個詞實在 太奇怪了一點。 「處方箋」一詞的「箋」字,我查了兩本字典都只有「ㄐㄧㄢ」這 個音,而沒有「ㄑㄧㄢ」音,故後者我刪去了。請各位幫忙確認一 下這個字真的不應讀成後者 (但我聽新聞好像一堆記者都讀「ㄑㄧㄢ」??) 「不再需要」可以成詞,雖然它應斷成「不再」「需要」,但考慮 到 libtabe 演算法的因素,所以我暫時先收了。注意如果您單單打 「不再需要」四個字時,就算沒這個詞程式也會正確斷詞,但如果 在一個長句子中內夾這四個字時可能就不保證了。 「這大概是」我「忍痛」收了 :-)) 我本來是只想收「大概是」一 詞的 (實事上這個詞本來就已有),但這樣子的話斷詞還是錯誤, 原因是我們的詞庫中有一個「浙大」一詞 .... so, 為了讓斷詞正 確,我先收了。大家看看該怎麼辦 :-)) T.H.Hsieh To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
[注音填補] 21001-22000 From: Edward Lee <edward.@kimo.com> |
|---|---|---|
| Next: |
Re: addtsi From: <wycc@link.ece.uci.edu> |
|
| Indexed By Thread | Previous: |
Re: addtsi From: vgod.bbs@openbazaar.net (vgod) |
| Next: |
Re: addtsi From: <wycc@link.ece.uci.edu> |