|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: 詞庫整體規畫 |
| From: | Edward Lee <edward.@kimo.com> |
| Organization: | GNU/Linux/*BSD Dreamer Club |
| Date: | Sat, 13 Jan 2001 12:04:58 +0800 |
| To: | xcin@tlug.sinica.edu.tw |
| Delivered-To: | xcin-gate@tlug.sinica.edu.tw |
| Delivered-To: | xcin-list@tlug.sinica.edu.tw |
| Reply-To: | xcin@tlug.sinica.edu.tw |
| User-Agent: | Mutt/1.3.13i (Linux 2.4.0 i586) |
sorry, 我寫得好像是在 complain 了!@_@ 我把標題改成『詞庫整體規畫』,和以前 Kuang-che 兄提出的意見 互相呼應一下。:-) 我會另 cc 一份給酷音的作者,也請他們提供意見? On Sat, Jan 13, 2001, thhsieh@tlug.sinica.edu.tw wrote: > : 2. bimsphone 是要走「斷詞處理」的方向,還是「智慧型選字」得先釐 > : 清。兩種方向,詞條的取捨標準可能會不同。 > > 我也不知道,事實上我不太懂,也沒深入研究過 .... :-(( 其實我也是不懂!:( 所以需要對這方面有研究的大大們提出的個比較 中肯的方向來。 > : 3. 我覺得我們整理詞庫需站在較中立一點的立場,也就是不設想是針對 > : bimsphone,這樣其它的輸入法才能較方便拿來利用,至於不同輸入法 > : 要利用這個詞庫前,得修改(或程式處理)整個詞庫,以符合所需。 > > 是的,這一點很重要 .... > > : 因此,我是認為,除非很明顯的錯誤,不然盡量保留,以便其它輸入法或 > : 演算法要利用時,可以方便處理。因此,刪詞可能不是好辦法,加注記反 > : 而是較好的做法。至於注記做法,記得以前曾經討論過,是不是可以把這 > : 個標準定出來,然後再整批來處理? > : > : 多點討論,把共識訂定出來才是辦法,說實在話從開始整理到現在,「標 > : 準」已變動了好多次。這次第二階段的整理前,我還在想說,不知道什麼 > : 時候又會變動,十幾萬詞條的東東,老實說有點怕怕!:-) > > 好,那大家先來討論如何加註記好了。我認為想要使用本詞庫者其編譯 > 程式 (如 libtabe 的 tsiadd) 必須要認得這些註記,看到某種註記時 > 就知道要刪、要納入、或要特別處理 .... > > 註記要加在那裡呢?我提議加在每個詞條的最前面,像是: > > !NL 中華民國 <詞頻> <注音> > > "#" 還是保留給 comment 用,而 ! 開頭者的 word 就是註記,後頭加的 > symbol 就是代表此詞條的屬性。如 NL 是「名詞 (Name)」「地方 (Location)」, > 所以合起來就是「地名」。 我記得以前蔡志浩兄曾提到把這些注記硬塞入一個 byte 中,這樣會不 會比較好處理?各位程設的功力都比我高,腦力激盪一下吧!^_^ * 大意是加此,我會再查一下 archives。 這裡另加入我個人的意見,那就是可不可能將詞庫就只有詞條本身,至於 其它詞頻、注音、注記的部份獨立出來,大家的看法如何?構想還很粗糙 ,目的是可以將詞庫內容的整理簡單化,讓更多的朋友能夠參與,另外就 是其它的輸入法要運用的話可能會比較方便。 > 再來討論該加那些註記?我們有必要定得很詳細嗎?還是只針對一些特 > 別的詞 (如贅詞、人名、地名、專有名詞 ....) 先來定?後者的話比 > 較容易,若前者的話就要很小心了,恐怕得經過詳細討論、try and error > 之後才能有完善的定案。 這個就大家想想怎麼樣比較好,不過,如果是以一個 byte 來當注記 的話,要寫入什麼內容,空間應該是夠的。 > 我的建議是,先從後者開始做,一方面比較簡單,同時也俱備實驗性質, > 可以用來檢驗我們這樣定好不好。缺點是,將來我們若要再加入新的詞類 > 時,恐怕需要再從頭 review。從頭 review 到底好還是不好,我覺得要 > 看是從那個角度來看,浪費時間精力是不好,但好死不死剛好發現 bug > 的話就是好,而且在從頭 review 的話因為注音都已填補完畢,同時絕 > 大部分的錯誤也已更正,故理論上速度會很快,而且我們可以更專心地 > 去做分類工作。 我的意思也是最後再來做整批的處理,因為目前需要討論出注記的標準 出來,可能需要一點時間。大家覺得如何? > 再來是更嚴肅的問題,tsi.src 的 review 工作進行至今,其改進 (或 > 將要進行的改進) 可能已超越原先的預期,也可能已超越原本 libtabe > 的預期,因此,是否 tsi.src 仍要附屬於 libtabe 之下?還是應獨立 > 出來維護?這一點我無法做決定,要留給當年發展 libtabe 的大大們了。 > 還是,這個問題先留著吧,以後再說 :-)) 如果是每個詞條以一個獨立的 byte 來當注記的話,這和詞條整理本身 關係就沒那麼大,而且各個輸入法或演算法在運用詞庫時都是靠這個注 記來使用的(理想情況下:),這種情形下,將詞庫獨立出來可能比較妥 當。 不過要說一下抱歉,因為當初居士兄已將 tsi.src 獨立出來了,是我建 議把它又拼入 libtabe 中的!:-( 因為當時沒有想到其它輸入法的問 題。 看來,規劃是必要的,try & error 好像也無法完全避免!:-) -- Warm Regards, Edward Lee(李果正) -------------------------------- 大道廢,有仁義。智慧出,有大偽。 -------------------------------- To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: 「往生成佛」一詞, 建議拆開 From: thhsieh@tlug.sinica.edu.tw |
|---|---|---|
| Next: |
Re: 詞庫整體規畫 From: thhsieh@tlug.sinica.edu.tw |
|
| Indexed By Thread | Previous: |
Re: 「往生成佛」一詞, 建議拆開 From: thhsieh@tlug.sinica.edu.tw |
| Next: |
Re: 詞庫整體規畫(一些舊信供參考) From: Edward Lee <edward.@kimo.com> |