|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: libtabe tsi.src improvement |
| From: | thhsieh@linux.org.tw |
| Date: | Fri, 25 Aug 2000 09:30:22 +0800 |
| To: | xcin@linux.org.tw |
| Reply-To: | xcin@linux.org.tw |
: 我想到的作法剛好是反過來的。如果找得到品質比較有保證的詞庫, : 可以先用來和 tsi.src 比對,兩邊都有的,就先保留;tsi.src 沒有的,就 : 加進去。tsi.src 有、但比對用的詞庫沒有的,再交由人工檢視。也許 : 可以用教育部的《重編國語辭典》作為參照詞庫。下面這個網頁,或 : 可提供一些有用的參考訊息: : : http://william.cswiz.org/techreport/moecdict/ 您終於出聲了 :-)) 謝謝您提供資料 :-)) : > 由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分 : > 析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程 : > 式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無 : > 減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」, : > 會比較適當。 : : 說到這個,我難辭其咎。最早的詞庫,是我直接以程式合併數個現成 : 的詞庫而成。因為我沒有時間,合併過程中並未逐條檢查,所以不適 : 當的項目很多。 : : 如果有個參照詞庫,「存菁」的部分多多少少可以自動化。 這樣好了,我這一兩個禮拜就根據您提供的資料與方式,先用程式將「存菁」 的部分跑過一遍,然後再將有問題的部分抽離出來,讓大家逐條斟酌,這樣可 以避免大家多做無謂的苦工。 ID5 兄,建議您也許可以先暫停一下您目前的 libtabe 的工作,等我這邊程 式跑出來後,再根據跑出來的結果繼續下去,我相信這樣子的進度可以加快 不少。 :-)) T.H.Hsieh To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
[Update] xcin-2.5.2-pre5 From: thhsieh@linux.org.tw |
|---|---|---|
| Next: |
Re: libtabe tsi.src improvement From: Chih-Hao Tsai <hao520@yahoo.com> |
|
| Indexed By Thread | Previous: |
Re: libtabe tsi.src improvement From: Chih-Hao Tsai <hao520@yahoo.com> |
| Next: |
Re: libtabe tsi.src improvement From: Chih-Hao Tsai <hao520@yahoo.com> |