Great Circle Associates

XCIN Mail-list
(August 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: libtabe tsi.src improvement
From: Chih-Hao Tsai <hao520@yahoo.com>
Organization: Taiwan Linux User Group News Server
Date: Thu, 24 Aug 2000 16:14:29 -0500
To: xcin@tlug.sinica.edu.tw
Reply-To: xcin@linux.org.tw

thhsieh@linux.org.tw wrote:
> 
> 我心目中的計畫是這樣: 第一步先做辭庫檔的「去蕪存精」的工作,第二步
> 再看看有沒有其他現成可用的辭庫加進來,進一步擴充原有辭庫的內容,如
> 此應該可以將 bimsphone 猜字的正確率提升到一定的呈度。而將來再加入
> 加新辭的功能 (由 xcin 這邊來加新辭),算是較遠程的計畫。

我想到的作法剛好是反過來的。如果找得到品質比較有保證的詞庫,
可以先用來和 tsi.src 比對,兩邊都有的,就先保留;tsi.src 沒有的,就
加進去。tsi.src 有、但比對用的詞庫沒有的,再交由人工檢視。也許
可以用教育部的《重編國語辭典》作為參照詞庫。下面這個網頁,或
可提供一些有用的參考訊息:

http://william.cswiz.org/techreport/moecdict/

> 由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分
> 析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程
> 式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無
> 減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」,
> 會比較適當。

說到這個,我難辭其咎。最早的詞庫,是我直接以程式合併數個現成
的詞庫而成。因為我沒有時間,合併過程中並未逐條檢查,所以不適
當的項目很多。

> 因此,這「去蕪存精」的工作恐怕難以用程式分析自動執行,可能需要用人
> 工的方式來判斷、修正。然而,我們的辭庫檔大小超過 3 MB, 總共 138649
> 個辭,光靠幾個人是不可能在短時間內全部弄完的。故在此我希望大家能一
> 起來,集合眾人的力量一起將它完成。

如果有個參照詞庫,「存菁」的部分多多少少可以自動化。



--
Chih-Hao Tsai | ICQ#5734422 | http://profiles.yahoo.com/hao520
Search ldap://certserver.pgp.com or email me for PGP public key.
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


References:
Indexed By Date Previous: Fwd: Re: [I18n] 4 bytes encoding Fonts support.
From: Edward Lee <edward.@kimo.com>
Next: Re: [Fw: ] tsi-src2.patch....大家看一下...:)
From: Chih-Hao Tsai <hao520@yahoo.com>
Indexed By Thread Previous: libtabe tsi.src improvement
From: thhsieh@linux.org.tw
Next: Re: libtabe tsi.src improvement
From: thhsieh@linux.org.tw