Great Circle Associates

XCIN Mail-list
(December 2000)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: tsi.src 已完成
From: thhsieh@linux.org.tw
Date: Sat, 2 Dec 2000 23:19:40 +0800
To: xcin@tlug.sinica.edu.tw
Reply-To: xcin@linux.org.tw

: > 因此我寫了個小程式, 把符合以下條件的詞挑出來
: >   存在一個四字詞, 且同時存在一個超過四字的詞
: >   剛好前者是後者的 prefix
: > 列出 1469 個詞, 經過人工比對找出非詞的四字詞 778 個
:   
: > 這些詞列於後:奇數行是不成詞的四字詞(應該刪掉),偶數行則是另一個詞供參考
: > 可能要有人幫忙 review 一下(或是另一個人重看一次看還有那些詞是該刪掉的)
: 不好意思這件工作是用 libtabe 0.1.9 的 tsi.src 作的,
: 而非 tsi.src-20001105.gz, 因此恐怕還得再作一次

您說得沒錯,那些奇怪的四字詞我們有注意到,故我們在第一階段
的工作中已盡可能刪去了。只是那時我們是用人工去刪的,不是用
程式去判斷的,故可能會有遺漏。

能否麻煩您用您的程式將 tsi.src-20001105 或 tsi.src-20001130
(這兩個詞數目是一樣的,只是格式不太一樣而已) 再跑一次,然後
告訴我們結果,我們好做 patch ....

謝謝您 :-))


T.H.Hsieh
To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message


Follow-Ups:
Indexed By Date Previous: Re: 認養 tsi.src 2501~3000
From: thhsieh@linux.org.tw
Next: Re: [devel] tsi.src-20001105
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>
Indexed By Thread Previous: Re: [devel] tsi.src-20001105
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>
Next: Re: tsi.src ?w????
From: Kuang-che Wu <kcwu@camel.ck.tp.edu.tw>