Great Circle Associates

XCIN Mail-list
(December 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: [devel] tsi.src-20001105
From: Chih-Hao Tsai <hao520@yahoo.com>
Organization: Taiwan Linux User Group News Server
Date: Sat, 02 Dec 2000 16:50:59 -0600
To: xcin@tlug.sinica.edu.tw
Reply-To: xcin@linux.org.tw

Kuang-che Wu wrote:
> 有一類特殊的詞, 並非完整的正確的詞, 但常出現在句子的語句片斷中
> 譬如 "我不", "我要", "好嗎", "越來", "越來越" ,"為何不"
> (我一時三刻想不到好的例子)
> 這類詞以"詞庫"的標準, 不應收錄, 因為這不是詞
> 但若以 bimsphone 的角度來看, 這些詞條有助於猜字(假設還是用現在的猜法的話)
> 因此我認為應該把這類詞從 libtabe 的詞庫抽出來,
> bimsphone 自己弄一套特製化的詞庫, 專供注音猜字使用
> 可是從另一個角度來看, 在詞庫中加入這些詞條又有助於斷詞, 即使那不是真的詞
> 不曉得 Chih-Hao Tsai 兄對這個問題有何看法....

「越來越」是一個詞,但「越來」就不是了;後者可刪。

至於像「我/要」、「好/嗎」、「為何/不」這種經常同時出現的
單位,或許有助於猜詞。要實驗過才知道,我不是十分確定。或可暫
時保留,但加註記。

從詞庫的角度,是該把「詞」與「詞組」分開。但從程式的角度,似
乎不需要分成數個檔案。以目前單一檔案的型式,應該只要用加標記
的方式就好了。



--
Chih-Hao Tsai | ICQ#5734422 | http://www.geocities.com/hao520
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Follow-Ups:
References:
Indexed By Date Previous: Re: 認養5001-5500
From: lachesis.bbs@openbazaar.net (拉克西絲)
Next: 認養_tsi.src 6000-6200
From: matini_yt@kimo.com.tw (matini)
Indexed By Thread Previous: Re: [devel] tsi.src-20001105
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>
Next: Re: [devel] tsi.src-20001105
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>