Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: 自動加詞..
From: vgod@circ.tcfsh.tc.edu.tw
Date: Wed, 3 Jan 2001 23:07:35 +0800
To: xcin@linux.org.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw

剛才submit了一些可以新加的詞
大家可能會覺得裡面有些詞蠻奇怪的
像 "最後一","餘人"..
加不加可能蠻難決定的,但這些詞在日常打字中倒是蠻常出現的..
因為這些詞我是先用程式篩選過,在自己去校對的
至於程式篩選的方法我大概說一下,如果大家有興趣
我再把source提供出來以便讓加詞能進行得更順利..^^

基本上我是先找些文章來讓程式作篩選工作
一篇包含中英文的文章,我先用個小程式把非中文的濾掉
然後再用全形標點符號來作斷句
把文章切成許多小句子後
在從句子裡面作斷詞...
而我是利用google這搜尋引擎來作斷詞的輔助工具
所以作法就很簡單了
例如說現在的句子是 "以往電腦在面對漢字時"
那就從句首切出詞來作查詢
以下是我手動查詢的結果

以往            556000
以往電          21    
以往電腦        142
以往電腦在      5  
....             
後面的就是0或1了

所以可以很明顯的看到"以往"這個詞出現的頻率非常高
當然就可以納入詞庫中                            
把"以往"加入後就把這詞從句子裡刪除
剩下"電腦在面對漢字時"            
同樣的方法也能發現電腦也是高頻率出現的詞...

如此就可以快速歸納出許多常用詞出來
當然要多高的頻率才納入也得蠻仔細考量的
這就得再實驗看看                          

我剛才從網路上抓了幾個新聞來試跑程式看看
效果還不錯,但抓出來的詞還是需要人工校對一次
(其實被抓出來的詞仍有許多是沒有意義的詞)
但因為我程式裡面還會和tsi.db作比對
所以如果已經有的詞就不會在被拿去作查詢
同一篇文章內重複的詞也會被濾掉
目前還欠缺的功能是自動填上注音及自動抓文章來分析..
但不管如何 人工在確認一次還是必要的
只是能使擴充詞庫的速度加快一些而已..^^

對了,另外想請問一下
大家是怎麼打注音符號的??
我原來用bimsphone打注音實在很慢,蠻多字都還要選..
所以後來就直接打對應按鍵
(大概像這樣 ZHU = 2u04 sl3)
等全部都填完在用個程式把按鍵轉回注音符號..
(轉回來就變成 ZHU = ㄉㄧㄢ4 ㄋㄠ3)
其實這樣速度也不錯 完全能用平常打字速度來照樣打注音
只是不能邊打邊看而已:P

以上.


To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



Follow-Ups:
Indexed By Date Previous: Re: addtsi
From: william.bbs@openbazaar.net (何陋居主)
Next: Re: addtsi
From: vgod.bbs@openbazaar.net (vgod)
Indexed By Thread Previous: addtsi
From: nobody@tlug.sinica.edu.tw (Nobody)
Next: Re: 自動加詞..
From: Kuang-che Wu <kcwu@ck.tp.edu.tw>