Great Circle Associates

XCIN Mail-list
(August 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: libtabe tsi.src improvement
From: thhsieh@linux.org.tw
Date: Thu, 3 Aug 2000 17:54:11 +0800
To: xcin@linux.org.tw
Reply-To: xcin@linux.org.tw

各位好:

相信大家對於 xcin bimsphone 那種「不聰明」的猜字功能困擾已久。其實
xcin bimsphone 的猜字引擎是來自 libtabe 套件,而其中最重要的部分是
libtabe 內含的辭庫檔 tsi.src 。整個系統的猜字正確率有很大的一部分
是來自於 tsi.src 的品質。

先前在 mailing list 中已有很多關於改善 libtabe 辭庫的討論,可惜大
家都太忙了,沒時間出來 run,故到現在一直沒有進展。因此,趁著暑假未
結束,我想出來協調大家,一同將它完成。

我心目中的計畫是這樣: 第一步先做辭庫檔的「去蕪存精」的工作,第二步
再看看有沒有其他現成可用的辭庫加進來,進一步擴充原有辭庫的內容,如
此應該可以將 bimsphone 猜字的正確率提升到一定的呈度。而將來再加入
加新辭的功能 (由 xcin 這邊來加新辭),算是較遠程的計畫。

由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分
析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程
式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無
減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」,
會比較適當。

因此,這「去蕪存精」的工作恐怕難以用程式分析自動執行,可能需要用人
工的方式來判斷、修正。然而,我們的辭庫檔大小超過 3 MB, 總共 138649
個辭,光靠幾個人是不可能在短時間內全部弄完的。故在此我希望大家能一
起來,集合眾人的力量一起將它完成。

由於我之前從未協調過這麼大的合作計畫,也不知道大家對此事的意願如何,
故我就先以這封 mail 做拋磚引玉,大家先討論討論,而我也會盡量將 libtabe
與辭庫的一些細節 post 出來讓大家參考,等到我們大至協調出一些結果後,
再來動手。

以上是我的一些想法,請大家多多指教 :-))


T.H.Hsieh
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Follow-Ups:
Indexed By Date Previous: ertrte@安迪新片快報中心-----本信今年度只發一次---要保存好喔,免得又找不到安迪喔!!
From: rte@kimo.com.tw
Next: [Fwd: ] Re: libtabe tsi.src improvement
From: thhsieh@linux.org.tw
Indexed By Thread Previous: ertrte@安迪新片快報中心-----本信今年度只發一次---要保存好喔,免得又找不到安迪喔!!
From: rte@kimo.com.tw
Next: Re: libtabe tsi.src improvement
From: Chih-Hao Tsai <hao520@yahoo.com>