Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: addtsi
From: thhsieh@tlug.sinica.edu.tw
Date: Thu, 4 Jan 2001 23:33:56 +0800
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.2.5i

: > > TSI = 再把
: 在和再是蠻麻煩的東西..
: 這可能得靠語境分析才行了
: 每個再xx都當作詞來加也不是辦法..
: 
: > > TSI = 仍依
: > > TSI = 餘人
: > > TSI = 盼了
: > 這幾個似乎不能算是詞吧.
: 但是像這些東西如果在xcin裡面直接打都會選錯字
: 而且這些詞也是蠻常出現的..
: 每次都要選也蠻麻煩的呢...^^
: 
: 像這種不算"詞"的詞要怎麼辦呢??..

由於受限於 libtabe 的猜字 (詞) 演算法,也沒有語境分析可用,
所以這些看來「不像詞」的詞,暫時只好收入了 :-((

就您新加的這些詞中,「最後一」我沒有收,因為「一」後頭接的
字詞目前詞庫已相當豐富,故程式在斷詞時應該都可以正確斷出
「最後」「一XXXX」,故應該不需要「最後一」,而且這個詞實在
太奇怪了一點。

「處方箋」一詞的「箋」字,我查了兩本字典都只有「ㄐㄧㄢ」這
個音,而沒有「ㄑㄧㄢ」音,故後者我刪去了。請各位幫忙確認一
下這個字真的不應讀成後者 (但我聽新聞好像一堆記者都讀「ㄑㄧㄢ」??)

「不再需要」可以成詞,雖然它應斷成「不再」「需要」,但考慮
到 libtabe 演算法的因素,所以我暫時先收了。注意如果您單單打
「不再需要」四個字時,就算沒這個詞程式也會正確斷詞,但如果
在一個長句子中內夾這四個字時可能就不保證了。

「這大概是」我「忍痛」收了 :-)) 我本來是只想收「大概是」一
詞的 (實事上這個詞本來就已有),但這樣子的話斷詞還是錯誤,
原因是我們的詞庫中有一個「浙大」一詞 .... so, 為了讓斷詞正
確,我先收了。大家看看該怎麼辦 :-))


T.H.Hsieh

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
Indexed By Date Previous: [注音填補] 21001-22000
From: Edward Lee <edward.@kimo.com>
Next: Re: addtsi
From: <wycc@link.ece.uci.edu>
Indexed By Thread Previous: Re: addtsi
From: vgod.bbs@openbazaar.net (vgod)
Next: Re: addtsi
From: <wycc@link.ece.uci.edu>