Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: [填補注音] 14001-15000
From: william.bbs@openbazaar.net (何陋居主)
Organization: OpenBazaar
Date: 11 Jan 2001 07:51:46 GMT
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw

※ 引述《thyu@ck.tp.edu.tw (Tzu-hsien Yu)》之銘言:
> From "何陋居主" <william.bbs@openbazaar.net>:
> > 主要人物        * 該切成兩詞, 否則複合詞怎麼列也列不完
> > 主要矛盾        * 該切成兩詞, 否則複合詞怎麼列也列不完
> > 主要因素        * 該切成兩詞, 否則複合詞怎麼列也列不完
> > 主要原因        * 該切成兩詞, 否則複合詞怎麼列也列不完
> > 主要問題        * 該切成兩詞, 否則複合詞怎麼列也列不完
> > 主要樹種        * 該切成兩詞, 否則複合詞怎麼列也列不完
> 但是現在詞庫裡面這種詞非常多耶...
> 要到哪一種程度才能幫助猜字又不會有這種"贅詞"呢?

我想先解釋一下自己參與此計畫的主要原因。

我本身是用注音輸入法, 而且是純種注音 (不會自動選字的那種),
所以我個人出較多力氣的, 會較傾向於有利自然語言處理的「斷詞處理」部份,
而不是「智慧型選字」的部份。

不過, 對同一份詞庫, 不同人有不同的需求及運用方式,
所以, 似乎也不必太堅持一定要只收錄「符合語言學嚴格定義的單詞」。
不過, 複合詞太多, 排列組合是沒完沒了的,
若無某種節制, 的確會增加詞庫體積, 且又未必有助於智慧型選字。
所以, 我也贊同一些朋友的意見, 遇到複合詞, 先實際輸入一段句子,
看看不加這個複合詞會不會導致選錯字。
--
※ Origin: 網路邊攤BBS <openbazaar.net> 
◆ From: 

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
Indexed By Date Previous: Re: tsi.src change of this week (2)
From: william.bbs@openbazaar.net (何陋居主)
Next: Re: 一些可疑的詞條
From: Kuang-che Wu <kcwu@ck.tp.edu.tw>
Indexed By Thread Previous: Re: [填補注音] 14001-15000
From: thhsieh.bbs@openbazaar.net (居士)
Next: Re: [填補注音] 14001-15000
From: Kuang-che Wu <kcwu@ck.tp.edu.tw>