Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: 詞庫整體規畫
From: Edward Lee <edward.@kimo.com>
Organization: GNU/Linux/*BSD Dreamer Club
Date: Sat, 13 Jan 2001 12:04:58 +0800
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.3.13i (Linux 2.4.0 i586)

  sorry, 我寫得好像是在 complain 了!@_@

  我把標題改成『詞庫整體規畫』,和以前 Kuang-che 兄提出的意見
  互相呼應一下。:-)

  我會另 cc 一份給酷音的作者,也請他們提供意見?

On Sat, Jan 13, 2001, thhsieh@tlug.sinica.edu.tw wrote:
> :  2. bimsphone 是要走「斷詞處理」的方向,還是「智慧型選字」得先釐
> :     清。兩種方向,詞條的取捨標準可能會不同。
> 
> 我也不知道,事實上我不太懂,也沒深入研究過 .... :-((

  其實我也是不懂!:( 所以需要對這方面有研究的大大們提出的個比較
  中肯的方向來。

> :  3. 我覺得我們整理詞庫需站在較中立一點的立場,也就是不設想是針對
> :     bimsphone,這樣其它的輸入法才能較方便拿來利用,至於不同輸入法
> :     要利用這個詞庫前,得修改(或程式處理)整個詞庫,以符合所需。
> 
> 是的,這一點很重要 ....
> 
> :  因此,我是認為,除非很明顯的錯誤,不然盡量保留,以便其它輸入法或
> :  演算法要利用時,可以方便處理。因此,刪詞可能不是好辦法,加注記反
> :  而是較好的做法。至於注記做法,記得以前曾經討論過,是不是可以把這
> :  個標準定出來,然後再整批來處理?
> :
> :  多點討論,把共識訂定出來才是辦法,說實在話從開始整理到現在,「標
> :  準」已變動了好多次。這次第二階段的整理前,我還在想說,不知道什麼
> :  時候又會變動,十幾萬詞條的東東,老實說有點怕怕!:-)  
> 
> 好,那大家先來討論如何加註記好了。我認為想要使用本詞庫者其編譯
> 程式 (如 libtabe 的 tsiadd) 必須要認得這些註記,看到某種註記時
> 就知道要刪、要納入、或要特別處理 ....
> 
> 註記要加在那裡呢?我提議加在每個詞條的最前面,像是:
> 
> !NL	中華民國 <詞頻>		<注音>
> 
> "#" 還是保留給 comment 用,而 ! 開頭者的 word 就是註記,後頭加的
> symbol 就是代表此詞條的屬性。如 NL 是「名詞 (Name)」「地方 (Location)」,
> 所以合起來就是「地名」。

  我記得以前蔡志浩兄曾提到把這些注記硬塞入一個 byte 中,這樣會不
  會比較好處理?各位程設的功力都比我高,腦力激盪一下吧!^_^
  * 大意是加此,我會再查一下 archives。

  這裡另加入我個人的意見,那就是可不可能將詞庫就只有詞條本身,至於
  其它詞頻、注音、注記的部份獨立出來,大家的看法如何?構想還很粗糙
  ,目的是可以將詞庫內容的整理簡單化,讓更多的朋友能夠參與,另外就
  是其它的輸入法要運用的話可能會比較方便。

> 再來討論該加那些註記?我們有必要定得很詳細嗎?還是只針對一些特
> 別的詞 (如贅詞、人名、地名、專有名詞 ....) 先來定?後者的話比
> 較容易,若前者的話就要很小心了,恐怕得經過詳細討論、try and error
> 之後才能有完善的定案。

  這個就大家想想怎麼樣比較好,不過,如果是以一個 byte 來當注記
  的話,要寫入什麼內容,空間應該是夠的。

> 我的建議是,先從後者開始做,一方面比較簡單,同時也俱備實驗性質,
> 可以用來檢驗我們這樣定好不好。缺點是,將來我們若要再加入新的詞類
> 時,恐怕需要再從頭 review。從頭 review 到底好還是不好,我覺得要
> 看是從那個角度來看,浪費時間精力是不好,但好死不死剛好發現 bug 
> 的話就是好,而且在從頭 review 的話因為注音都已填補完畢,同時絕
> 大部分的錯誤也已更正,故理論上速度會很快,而且我們可以更專心地
> 去做分類工作。

  我的意思也是最後再來做整批的處理,因為目前需要討論出注記的標準
  出來,可能需要一點時間。大家覺得如何?

> 再來是更嚴肅的問題,tsi.src 的 review 工作進行至今,其改進 (或
> 將要進行的改進) 可能已超越原先的預期,也可能已超越原本 libtabe
> 的預期,因此,是否 tsi.src 仍要附屬於 libtabe 之下?還是應獨立
> 出來維護?這一點我無法做決定,要留給當年發展 libtabe 的大大們了。
> 還是,這個問題先留著吧,以後再說 :-))

  如果是每個詞條以一個獨立的 byte 來當注記的話,這和詞條整理本身
  關係就沒那麼大,而且各個輸入法或演算法在運用詞庫時都是靠這個注
  記來使用的(理想情況下:),這種情形下,將詞庫獨立出來可能比較妥
  當。

  不過要說一下抱歉,因為當初居士兄已將 tsi.src 獨立出來了,是我建
  議把它又拼入 libtabe 中的!:-( 因為當時沒有想到其它輸入法的問
  題。

  看來,規劃是必要的,try & error 好像也無法完全避免!:-)


-- 
Warm Regards,
Edward Lee(李果正)
--------------------------------
大道廢,有仁義。智慧出,有大偽。
--------------------------------

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
References:
Indexed By Date Previous: Re: 「往生成佛」一詞, 建議拆開
From: thhsieh@tlug.sinica.edu.tw
Next: Re: 詞庫整體規畫
From: thhsieh@tlug.sinica.edu.tw
Indexed By Thread Previous: Re: 「往生成佛」一詞, 建議拆開
From: thhsieh@tlug.sinica.edu.tw
Next: Re: 詞庫整體規畫(一些舊信供參考)
From: Edward Lee <edward.@kimo.com>