|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | Re: Some ideas about improving libtabe |
| From: | Pai-Hsiang Hsiao <phsiao@fas.harvard.edu> |
| Date: | Wed, 18 Apr 2001 23:10:56 -0400 |
| To: | <xcin@tlug.sinica.edu.tw> |
| Delivered-To: | xcin-gate@tlug.sinica.edu.tw |
| Delivered-To: | xcin-list@tlug.sinica.edu.tw |
| Reply-To: | xcin@tlug.sinica.edu.tw |
| User-Agent: | Microsoft-Entourage/9.0.1.3108 |
on 4/18/01 5:52 PM, Chih-Hao Tsai at hao520@yahoo.com wrote: > Pai-Hsiang Hsiao wrote: > >> 還沒開始進行, 只是規畫一下而已. 8) >> 如果找不到這樣的句庫, 可能只好找大家幫忙了. > > 這是二月的舊信。不曉得有否新消息? > > 我後來想到一個很久以前在資源有限時,我曾經用過的方法:pseudo- > sentences。說起來很簡單,就是 random word strings。對於一些不 > 是真正要處理 syntax/semantics 的演算法,例如分詞、同音字選字 > ,這種模擬的方式還算有點幫助,結果應該也不致誤差太大。 不過因為沒有 language model, 隨機挑出來的字串 (一堆詞) 跟真正的語料還是有差 異. 更何況, 我怕大部分會出問題的詞是字典裡沒有的. 所以, 這樣的不見得可以得 到可靠得結果. 更簡單的方法是用字的 uni-gram model, 單靠字頻的 distribution 去生成字串, 但 是得出來的東西會是什麼, 可能更沒意義. 8) 我現在有的是一個不大不小的 Chinese TreeBank. 基本上是一些簡體中文的新聞稿等 東西, 約有十萬詞. 這些語料是由人工斷詞及加 part-of-speech tag. 我要做簡繁轉 換及加注音時, 就比較簡單及可靠點. 簡繁轉換基本上做完了, 一對多的情形部份用詞 庫挑出來比對, 再用人工校對. 注音也差不多, 先查教育部的詞典, 再比對 tsi.src, 最後再用人工加. (我看到現在的結果, tsi.src 在這部份已經快成為教育部 clc dict 的 super set. Thanks to everyone who contributes, great work!) 等到這些 data 都準備好, 就可以開始做 evaluation, 看看 bims 的 performance 如 何, 及我要新加的 learning feature 可以改善多少. -- // Shawn To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: Some ideas about improving libtabe From: Chih-Hao Tsai <hao520@yahoo.com> |
|---|---|---|
| Next: |
Re: [填補注音] From: edward@linux.dreamer.org (Edward G.J. Lee) |
|
| Indexed By Thread | Previous: |
Re: Some ideas about improving libtabe From: Chih-Hao Tsai <hao520@yahoo.com> |
| Next: |
Re: Some ideas about improving libtabe From: Chih-Hao Tsai <hao520@yahoo.com> |