Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: 「往生成佛」一詞, 建議拆開
From: thhsieh@tlug.sinica.edu.tw
Date: Sat, 13 Jan 2001 08:50:15 +0800
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.2.5i

:  我的意見參考一下看看。:)
:
:  1. 「往生成佛」本身就是一個詞,並不像「主要XX」之類的「非詞」,
:     因此,兩種情形可能得分開考慮。
:  2. bimsphone 是要走「斷詞處理」的方向,還是「智慧型選字」得先釐
:     清。兩種方向,詞條的取捨標準可能會不同。

我也不知道,事實上我不太懂,也沒深入研究過 .... :-((

:  3. 我覺得我們整理詞庫需站在較中立一點的立場,也就是不設想是針對
:     bimsphone,這樣其它的輸入法才能較方便拿來利用,至於不同輸入法
:     要利用這個詞庫前,得修改(或程式處理)整個詞庫,以符合所需。

是的,這一點很重要 ....

:  因此,我是認為,除非很明顯的錯誤,不然盡量保留,以便其它輸入法或
:  演算法要利用時,可以方便處理。因此,刪詞可能不是好辦法,加注記反
:  而是較好的做法。至於注記做法,記得以前曾經討論過,是不是可以把這
:  個標準定出來,然後再整批來處理?
:
:  多點討論,把共識訂定出來才是辦法,說實在話從開始整理到現在,「標
:  準」已變動了好多次。這次第二階段的整理前,我還在想說,不知道什麼
:  時候又會變動,十幾萬詞條的東東,老實說有點怕怕!:-)  

好,那大家先來討論如何加註記好了。我認為想要使用本詞庫者其編譯
程式 (如 libtabe 的 tsiadd) 必須要認得這些註記,看到某種註記時
就知道要刪、要納入、或要特別處理 ....

註記要加在那裡呢?我提議加在每個詞條的最前面,像是:

!NL	中華民國 <詞頻>		<注音>

"#" 還是保留給 comment 用,而 ! 開頭者的 word 就是註記,後頭加的
symbol 就是代表此詞條的屬性。如 NL 是「名詞 (Name)」「地方 (Location)」,
所以合起來就是「地名」。

除此之外,要考慮 backward compatibility, 如果沒加註記的詞條也是
合法的,其意義就留給各應用程式去判斷吧 (implement dependent)。
對 libtabe 的 tsiadd 而言,這樣的詞條就是要收。

再來討論該加那些註記?我們有必要定得很詳細嗎?還是只針對一些特
別的詞 (如贅詞、人名、地名、專有名詞 ....) 先來定?後者的話比
較容易,若前者的話就要很小心了,恐怕得經過詳細討論、try and error
之後才能有完善的定案。

我的建議是,先從後者開始做,一方面比較簡單,同時也俱備實驗性質,
可以用來檢驗我們這樣定好不好。缺點是,將來我們若要再加入新的詞類
時,恐怕需要再從頭 review。從頭 review 到底好還是不好,我覺得要
看是從那個角度來看,浪費時間精力是不好,但好死不死剛好發現 bug 
的話就是好,而且在從頭 review 的話因為注音都已填補完畢,同時絕
大部分的錯誤也已更正,故理論上速度會很快,而且我們可以更專心地
去做分類工作。

再來是更嚴肅的問題,tsi.src 的 review 工作進行至今,其改進 (或
將要進行的改進) 可能已超越原先的預期,也可能已超越原本 libtabe
的預期,因此,是否 tsi.src 仍要附屬於 libtabe 之下?還是應獨立
出來維護?這一點我無法做決定,要留給當年發展 libtabe 的大大們了。
還是,這個問題先留著吧,以後再說 :-))


T.H.Hsieh

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
Indexed By Date Previous: Re: 「往生成佛」一詞, 建議拆開
From: william.bbs@openbazaar.net (何陋居主)
Next: Re: 詞庫整體規畫
From: Edward Lee <edward.@kimo.com>
Indexed By Thread Previous: Re: 「往生成佛」一詞, 建議拆開
From: Edward Lee <edward.@kimo.com>
Next: Re: 詞庫整體規畫
From: Edward Lee <edward.@kimo.com>