Great Circle Associates

XCIN Mail-list
(April 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: Some ideas about improving libtabe
From: Pai-Hsiang Hsiao <phsiao@fas.harvard.edu>
Date: Wed, 18 Apr 2001 23:10:56 -0400
To: <xcin@tlug.sinica.edu.tw>
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Microsoft-Entourage/9.0.1.3108

on 4/18/01 5:52 PM, Chih-Hao Tsai at hao520@yahoo.com wrote:

> Pai-Hsiang Hsiao wrote:
> 
>> 還沒開始進行, 只是規畫一下而已.    8)
>> 如果找不到這樣的句庫, 可能只好找大家幫忙了.
> 
> 這是二月的舊信。不曉得有否新消息?
> 
> 我後來想到一個很久以前在資源有限時,我曾經用過的方法:pseudo-
> sentences。說起來很簡單,就是 random word strings。對於一些不
> 是真正要處理 syntax/semantics 的演算法,例如分詞、同音字選字
> ,這種模擬的方式還算有點幫助,結果應該也不致誤差太大。

不過因為沒有 language model, 隨機挑出來的字串 (一堆詞) 跟真正的語料還是有差
異. 更何況, 我怕大部分會出問題的詞是字典裡沒有的. 所以, 這樣的不見得可以得
到可靠得結果.

更簡單的方法是用字的 uni-gram model, 單靠字頻的 distribution 去生成字串, 但
是得出來的東西會是什麼, 可能更沒意義.   8)

我現在有的是一個不大不小的 Chinese TreeBank. 基本上是一些簡體中文的新聞稿等
東西, 約有十萬詞. 這些語料是由人工斷詞及加 part-of-speech tag. 我要做簡繁轉
換及加注音時, 就比較簡單及可靠點. 簡繁轉換基本上做完了, 一對多的情形部份用詞
庫挑出來比對, 再用人工校對. 注音也差不多, 先查教育部的詞典, 再比對 tsi.src,
最後再用人工加. (我看到現在的結果, tsi.src 在這部份已經快成為教育部 clc dict
的 super set. Thanks to everyone who contributes, great work!)

等到這些 data 都準備好, 就可以開始做 evaluation, 看看 bims 的 performance 如
何, 及我要新加的 learning feature 可以改善多少.

-- 

// Shawn



To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
References:
Indexed By Date Previous: Re: Some ideas about improving libtabe
From: Chih-Hao Tsai <hao520@yahoo.com>
Next: Re: [填補注音]
From: edward@linux.dreamer.org (Edward G.J. Lee)
Indexed By Thread Previous: Re: Some ideas about improving libtabe
From: Chih-Hao Tsai <hao520@yahoo.com>
Next: Re: Some ideas about improving libtabe
From: Chih-Hao Tsai <hao520@yahoo.com>