|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: libtabe tsi.src improvement |
| From: | Chih-Hao Tsai <hao520@yahoo.com> |
| Organization: | Taiwan Linux User Group News Server |
| Date: | Thu, 24 Aug 2000 16:14:29 -0500 |
| To: | xcin@tlug.sinica.edu.tw |
| Reply-To: | xcin@linux.org.tw |
thhsieh@linux.org.tw wrote: > > 我心目中的計畫是這樣: 第一步先做辭庫檔的「去蕪存精」的工作,第二步 > 再看看有沒有其他現成可用的辭庫加進來,進一步擴充原有辭庫的內容,如 > 此應該可以將 bimsphone 猜字的正確率提升到一定的呈度。而將來再加入 > 加新辭的功能 (由 xcin 這邊來加新辭),算是較遠程的計畫。 我想到的作法剛好是反過來的。如果找得到品質比較有保證的詞庫, 可以先用來和 tsi.src 比對,兩邊都有的,就先保留;tsi.src 沒有的,就 加進去。tsi.src 有、但比對用的詞庫沒有的,再交由人工檢視。也許 可以用教育部的《重編國語辭典》作為參照詞庫。下面這個網頁,或 可提供一些有用的參考訊息: http://william.cswiz.org/techreport/moecdict/ > 由於這個辭庫的產生,當初是由蕭百翔等中研院資科所的團隊,藉由程式分 > 析的方式完成的,故辭庫中充斥了不少的無用的辭。它們的存在並不影響程 > 式的執行,但若我們希望將來擴充辭庫的內容時,會使得辭庫檔大小有增無 > 減,佔用相當多的系統資源。故我建議,在擴充前先做好適當的「瘦身」, > 會比較適當。 說到這個,我難辭其咎。最早的詞庫,是我直接以程式合併數個現成 的詞庫而成。因為我沒有時間,合併過程中並未逐條檢查,所以不適 當的項目很多。 > 因此,這「去蕪存精」的工作恐怕難以用程式分析自動執行,可能需要用人 > 工的方式來判斷、修正。然而,我們的辭庫檔大小超過 3 MB, 總共 138649 > 個辭,光靠幾個人是不可能在短時間內全部弄完的。故在此我希望大家能一 > 起來,集合眾人的力量一起將它完成。 如果有個參照詞庫,「存菁」的部分多多少少可以自動化。 -- Chih-Hao Tsai | ICQ#5734422 | http://profiles.yahoo.com/hao520 Search ldap://certserver.pgp.com or email me for PGP public key. To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Fwd: Re: [I18n] 4 bytes encoding Fonts support. From: Edward Lee <edward.@kimo.com> |
|---|---|---|
| Next: |
Re: [Fw: ] tsi-src2.patch....大家看一下...:) From: Chih-Hao Tsai <hao520@yahoo.com> |
|
| Indexed By Thread | Previous: |
libtabe tsi.src improvement From: thhsieh@linux.org.tw |
| Next: |
Re: libtabe tsi.src improvement From: thhsieh@linux.org.tw |