|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Bims performance |
| From: | Pai-Hsiang Hsiao <phsiao@fas.harvard.edu> |
| Date: | Sat, 28 Apr 2001 06:07:35 -0400 |
| To: | <xcin@tlug.sinica.edu.tw> |
| Delivered-To: | xcin-gate@tlug.sinica.edu.tw |
| Delivered-To: | xcin-list@tlug.sinica.edu.tw |
| Reply-To: | xcin@tlug.sinica.edu.tw |
| User-Agent: | Microsoft-Entourage/9.0.1.3108 |
幾個月前提到這學期期末報告要做跟 bims 有關的東西, 最近有一些成果了. 細節還在 整理中, 不過可以先賣瓜一下. 8) Bims 猜字的概念是從斷辭衍生出來的. 斷辭可以把 input 的字串分成獨立而有意義的 辭, 使用辭庫當參考是一種簡單且常見的方法 (請參考蔡志浩的 MMSEG). 根據我的經 驗, 這纇的方法搭配好的辭庫, 可以達到 75% 以上的正確率. Bims 的方法是把這樣的 辭庫拿來加上讀音, 就可以用來拆使用者輸入的讀音. 拆出來的讀音會對應到一些辭庫 裡的辭, 這時再用辭頻選最常用辭當結果. 比方說, (ㄓㄨㄥ) (ㄨㄣ2) (ㄔㄨ3) (ㄌㄧ3) 會被拆成 [(ㄓㄨㄥ) (ㄨㄣ2)][(ㄔㄨ3) (ㄌㄧ3) ], 根據辭頻, 可以挑出[中文][處理] 當輸出. 這個方法不見得是最好, 不過算是簡單且可行的方法. (讀音可以用窮舉法加人工刪減, 辭頻靠中文網頁貢獻) 剩下的問題至少有兩個: 1. 簡單, 但是效果如何? 2. 每個使用者用的辭頻不同, 怎麼學習或調整? 希望在兩個禮拜內, 我可以回答這兩個問題. 8) 現在我大概可以掰一下 1 的答案. 我用三百多篇新聞稿測試的結果, 正確率在 87% 以 上. 這些新聞稿約有 110K 的中文字, 應該不算少. 正在進行 2 的部份, 希望藉由學習可以提高到 90~95% 的正確率. -- // Shawn To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
No Subject From: "" |
|---|---|---|
| Next: |
Chinese input method feature idea: fix the char under cursor From: Dan Jacobson <jidanni@kimo.FiXcomTHiS.tw> |
|
| Indexed By Thread | Previous: |
FYI: lsb From: informer <informer@ns1.m2000.idv.tw> |
| Next: |
Re: FYI: lsb From: thhsieh@tlug.sinica.edu.tw |