|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | libtabe tsi.src improvement |
| From: | thhsieh@linux.org.tw |
| Date: | Thu, 3 Aug 2000 17:54:11 +0800 |
| To: | xcin@linux.org.tw |
| Reply-To: | xcin@linux.org.tw |
各位好: 相信大家對於 xcin bimsphone 那種「不聰明」的猜字功能困擾已久。其實 xcin bimsphone 的猜字引擎是來自 libtabe 套件,而其中最重要的部分是 libtabe 內含的辭庫檔 tsi.src 。整個系統的猜字正確率有很大的一部分 是來自於 tsi.src 的品質。 先前在 mailing list 中已有很多關於改善 libtabe 辭庫的討論,可惜大 家都太忙了,沒時間出來 run,故到現在一直沒有進展。因此,趁著暑假未 結束,我想出來協調大家,一同將它完成。 我心目中的計畫是這樣: 第一步先做辭庫檔的「去蕪存精」的工作,第二步 再看看有沒有其他現成可用的辭庫加進來,進一步擴充原有辭庫的內容,如 此應該可以將 bimsphone 猜字的正確率提升到一定的呈度。而將來再加入 加新辭的功能 (由 xcin 這邊來加新辭),算是較遠程的計畫。 由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分 析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程 式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無 減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」, 會比較適當。 因此,這「去蕪存精」的工作恐怕難以用程式分析自動執行,可能需要用人 工的方式來判斷、修正。然而,我們的辭庫檔大小超過 3 MB, 總共 138649 個辭,光靠幾個人是不可能在短時間內全部弄完的。故在此我希望大家能一 起來,集合眾人的力量一起將它完成。 由於我之前從未協調過這麼大的合作計畫,也不知道大家對此事的意願如何, 故我就先以這封 mail 做拋磚引玉,大家先討論討論,而我也會盡量將 libtabe 與辭庫的一些細節 post 出來讓大家參考,等到我們大至協調出一些結果後, 再來動手。 以上是我的一些想法,請大家多多指教 :-)) T.H.Hsieh To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
ertrte@安迪新片快報中心-----本信今年度只發一次---要保存好喔,免得又找不到安迪喔!! From: rte@kimo.com.tw |
|---|---|---|
| Next: |
[Fwd: ] Re: libtabe tsi.src improvement From: thhsieh@linux.org.tw |
|
| Indexed By Thread | Previous: |
ertrte@安迪新片快報中心-----本信今年度只發一次---要保存好喔,免得又找不到安迪喔!! From: rte@kimo.com.tw |
| Next: |
Re: libtabe tsi.src improvement From: Chih-Hao Tsai <hao520@yahoo.com> |