|
XCIN Mail-list
|
| Indexed By Date: [Previous] [Next] | Indexed By Thread: [Previous] [Next] |
| Subject: | 自動加詞.. |
| From: | vgod@circ.tcfsh.tc.edu.tw |
| Date: | Wed, 3 Jan 2001 23:07:35 +0800 |
| To: | xcin@linux.org.tw |
| Delivered-To: | xcin-gate@tlug.sinica.edu.tw |
| Delivered-To: | xcin-list@tlug.sinica.edu.tw |
| Reply-To: | xcin@tlug.sinica.edu.tw |
剛才submit了一些可以新加的詞 大家可能會覺得裡面有些詞蠻奇怪的 像 "最後一","餘人".. 加不加可能蠻難決定的,但這些詞在日常打字中倒是蠻常出現的.. 因為這些詞我是先用程式篩選過,在自己去校對的 至於程式篩選的方法我大概說一下,如果大家有興趣 我再把source提供出來以便讓加詞能進行得更順利..^^ 基本上我是先找些文章來讓程式作篩選工作 一篇包含中英文的文章,我先用個小程式把非中文的濾掉 然後再用全形標點符號來作斷句 把文章切成許多小句子後 在從句子裡面作斷詞... 而我是利用google這搜尋引擎來作斷詞的輔助工具 所以作法就很簡單了 例如說現在的句子是 "以往電腦在面對漢字時" 那就從句首切出詞來作查詢 以下是我手動查詢的結果 以往 556000 以往電 21 以往電腦 142 以往電腦在 5 .... 後面的就是0或1了 所以可以很明顯的看到"以往"這個詞出現的頻率非常高 當然就可以納入詞庫中 把"以往"加入後就把這詞從句子裡刪除 剩下"電腦在面對漢字時" 同樣的方法也能發現電腦也是高頻率出現的詞... 如此就可以快速歸納出許多常用詞出來 當然要多高的頻率才納入也得蠻仔細考量的 這就得再實驗看看 我剛才從網路上抓了幾個新聞來試跑程式看看 效果還不錯,但抓出來的詞還是需要人工校對一次 (其實被抓出來的詞仍有許多是沒有意義的詞) 但因為我程式裡面還會和tsi.db作比對 所以如果已經有的詞就不會在被拿去作查詢 同一篇文章內重複的詞也會被濾掉 目前還欠缺的功能是自動填上注音及自動抓文章來分析.. 但不管如何 人工在確認一次還是必要的 只是能使擴充詞庫的速度加快一些而已..^^ 對了,另外想請問一下 大家是怎麼打注音符號的?? 我原來用bimsphone打注音實在很慢,蠻多字都還要選.. 所以後來就直接打對應按鍵 (大概像這樣 ZHU = 2u04 sl3) 等全部都填完在用個程式把按鍵轉回注音符號.. (轉回來就變成 ZHU = ㄉㄧㄢ4 ㄋㄠ3) 其實這樣速度也不錯 完全能用平常打字速度來照樣打注音 只是不能邊打邊看而已:P 以上. To Unsubscribe: send mail to majordomo@linux.org.tw with "unsubscribe xcin" in the body of the message
| Indexed By Date | Previous: |
Re: addtsi From: william.bbs@openbazaar.net (何陋居主) |
|---|---|---|
| Next: |
Re: addtsi From: vgod.bbs@openbazaar.net (vgod) |
|
| Indexed By Thread | Previous: |
addtsi From: nobody@tlug.sinica.edu.tw (Nobody) |
| Next: |
Re: 自動加詞.. From: Kuang-che Wu <kcwu@ck.tp.edu.tw> |