Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: Add Tsi
From: thhsieh@tlug.sinica.edu.tw
Date: Tue, 2 Jan 2001 23:01:02 +0800
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.2.5i

: 這種牽涉到「專業」用詞的似乎蠻難界定的?
: 我有點蠻好奇的,以現在xcin的比對速度來說,最多大概可以容納多少的詞呢?
: (也就是能在快速打字下不會讓USER感到程式停頓)

這裡速度應不是問題,主要考慮是詞庫檔的大小。在我們還沒做任何
修改前,詞庫檔如下:

-rw-r--r--    1 thhsieh  thhsieh   4198400 Dec  1 21:40 tsi.db
-rw-r--r--    1 thhsieh  thhsieh   8351744 Dec  1 21:40 yin.db

直到今天早上, merge 大家的注音填補以及增刪新詞之後,大小如下:

-rw-r--r--    1 thhsieh  thhsieh   4243456 Jan  2 10:59 tsi.db
-rw-r--r--    1 thhsieh  thhsieh   7745536 Jan  2 10:59 yin.db

由此大略可看出來,藉由填補注音方式去除錯誤的讀音,對於瘦身的確
有點幫助。至於搜尋速度,由於詞庫檔編譯後,是以 Berkeley DB2 的
格式儲存,當初蕭百翔兄就是特別選了這個為基礎來發展,一來顧慮到
穩定性,二來也顧慮了效率,所以不需要太擔心 :-)

: 以專業詞彙來說可以分的非常精細,不管天文地理法律醫學資訊電子物理數學等等等...
: 目前libtabe也只有一個詞庫而已,所以或許也該在基本字彙日趨完善後考慮新增專業詞庫
: (專業應該是界定於大學以上專業科目的詞彙?)
: 這樣的話像上面那個「瑕積分」就應該歸類至專業詞彙中了吧。
: (至少我高中沒聽過這東西^^;...)

呵,雖然我瑕積分學不好,但我是經常聽到這個名詞的,至少在我大一
的時候。我想理工科在大學學微積分時一定會常常碰到這個名詞,故還
不算是太過專有。所以,我就收這個詞了 :-)


T.H.Hsieh

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Indexed By Date Previous: Re: thyu@ck.tp.edu.tw
From: Kuang-che Wu <kcwu@ck.tp.edu.tw>
Next: Re: Add Tsi
From: thhsieh@tlug.sinica.edu.tw
Indexed By Thread Previous: Re: Add Tsi
From: thhsieh@tlug.sinica.edu.tw
Next: Re: Add Tsi
From: thhsieh@tlug.sinica.edu.tw