Great Circle Associates

XCIN Mail-list
(August 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: libtabe tsi.src improvement
From: thhsieh@linux.org.tw
Date: Fri, 25 Aug 2000 09:30:22 +0800
To: xcin@linux.org.tw
Reply-To: xcin@linux.org.tw

: 我想到的作法剛好是反過來的。如果找得到品質比較有保證的詞庫,
: 可以先用來和 tsi.src 比對,兩邊都有的,就先保留;tsi.src 沒有的,就
: 加進去。tsi.src 有、但比對用的詞庫沒有的,再交由人工檢視。也許
: 可以用教育部的《重編國語辭典》作為參照詞庫。下面這個網頁,或
: 可提供一些有用的參考訊息:
: 
: http://william.cswiz.org/techreport/moecdict/

您終於出聲了 :-)) 謝謝您提供資料 :-))

: > 由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分
: > 析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程
: > 式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無
: > 減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」,
: > 會比較適當。
: 
: 說到這個,我難辭其咎。最早的詞庫,是我直接以程式合併數個現成
: 的詞庫而成。因為我沒有時間,合併過程中並未逐條檢查,所以不適
: 當的項目很多。
:
: 如果有個參照詞庫,「存菁」的部分多多少少可以自動化。

這樣好了,我這一兩個禮拜就根據您提供的資料與方式,先用程式將「存菁」
的部分跑過一遍,然後再將有問題的部分抽離出來,讓大家逐條斟酌,這樣可
以避免大家多做無謂的苦工。

ID5 兄,建議您也許可以先暫停一下您目前的 libtabe 的工作,等我這邊程
式跑出來後,再根據跑出來的結果繼續下去,我相信這樣子的進度可以加快
不少。 :-))


T.H.Hsieh
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Follow-Ups:
Indexed By Date Previous: [Update] xcin-2.5.2-pre5
From: thhsieh@linux.org.tw
Next: Re: libtabe tsi.src improvement
From: Chih-Hao Tsai <hao520@yahoo.com>
Indexed By Thread Previous: Re: libtabe tsi.src improvement
From: Chih-Hao Tsai <hao520@yahoo.com>
Next: Re: libtabe tsi.src improvement
From: Chih-Hao Tsai <hao520@yahoo.com>