Great Circle Associates

XCIN Mail-list
(April 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Bims performance
From: Pai-Hsiang Hsiao <phsiao@fas.harvard.edu>
Date: Sat, 28 Apr 2001 06:07:35 -0400
To: <xcin@tlug.sinica.edu.tw>
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Microsoft-Entourage/9.0.1.3108


幾個月前提到這學期期末報告要做跟 bims 有關的東西, 最近有一些成果了. 細節還在
整理中, 不過可以先賣瓜一下.    8)

Bims 猜字的概念是從斷辭衍生出來的. 斷辭可以把 input 的字串分成獨立而有意義的
辭, 使用辭庫當參考是一種簡單且常見的方法 (請參考蔡志浩的 MMSEG). 根據我的經
驗, 這纇的方法搭配好的辭庫, 可以達到 75% 以上的正確率. Bims 的方法是把這樣的
辭庫拿來加上讀音, 就可以用來拆使用者輸入的讀音. 拆出來的讀音會對應到一些辭庫
裡的辭, 這時再用辭頻選最常用辭當結果.

比方說,
(ㄓㄨㄥ) (ㄨㄣ2) (ㄔㄨ3) (ㄌㄧ3)
會被拆成
[(ㄓㄨㄥ) (ㄨㄣ2)][(ㄔㄨ3) (ㄌㄧ3) ],
根據辭頻, 可以挑出[中文][處理] 當輸出.

這個方法不見得是最好, 不過算是簡單且可行的方法. (讀音可以用窮舉法加人工刪減,
辭頻靠中文網頁貢獻)

剩下的問題至少有兩個:
 1. 簡單, 但是效果如何?
 2. 每個使用者用的辭頻不同, 怎麼學習或調整?

希望在兩個禮拜內, 我可以回答這兩個問題.   8)

現在我大概可以掰一下 1 的答案. 我用三百多篇新聞稿測試的結果, 正確率在 87% 以
上. 這些新聞稿約有 110K 的中文字, 應該不算少.

正在進行 2 的部份, 希望藉由學習可以提高到 90~95% 的正確率.

-- 

// Shawn



To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



References:
Indexed By Date Previous: No Subject
From: ""
Next: Chinese input method feature idea: fix the char under cursor
From: Dan Jacobson <jidanni@kimo.FiXcomTHiS.tw>
Indexed By Thread Previous: FYI: lsb
From: informer <informer@ns1.m2000.idv.tw>
Next: Re: FYI: lsb
From: thhsieh@tlug.sinica.edu.tw