Great Circle Associates

XCIN Mail-list
(January 2001)


Indexed By Date: [Previous] [Next] Indexed By Thread: [Previous] [Next]

Subject: Re: 詞庫整體規畫(一些舊信供參考)
From: Edward Lee <edward.@kimo.com>
Organization: GNU/Linux/*BSD Dreamer Club
Date: Sun, 14 Jan 2001 16:20:39 +0800
To: xcin@tlug.sinica.edu.tw
Delivered-To: xcin-gate@tlug.sinica.edu.tw
Delivered-To: xcin-list@tlug.sinica.edu.tw
Reply-To: xcin@tlug.sinica.edu.tw
User-Agent: Mutt/1.3.13i (Linux 2.2.18 i586)

On Sun, Jan 14, 2001, thhsieh@tlug.sinica.edu.tw wrote:
[...]
> : > tsi.db 是跟輸入法無關, 只有詞的一些資料.  yin.db 剛好相反, 是跟注音輸入
> : > 法共存.  比方說要做一個倉頡的詞"倉"輸入法, 只要用類似原理做出一個 cj.db,
> : > 斷詞演算法等的差異並不大.
> : >       
> : > 難的是, 每套輸入法的重根規則不同, 只能一個個對付.
> 
> 我現在知道為什麼果正兄希望將詞條與注音或其他欄位分開成不同檔案
> 了 :-))
> 
> 以下是我臨時想到,不確定是最好的想法:
> 
> 假設有兩個檔案,一個是 tsi.src, 一個是 keystroke.src, 前者是放
> 詞條,後者是放注音,或者是其他輸入法的字鍵碼,則:
> 
> 1. tsi.src 的格式如下:
> 
>    <類別欄位> <詞條> <詞條編號> <詞頻> <# comment>
> 
> 2. keystroke.src 的格式如下:
> 
>    <詞條編號> <字鍵碼> <各字鍵碼的使用頻率> <# comment>
> 
> 注意,這裡的 <詞頻> 就只有一個數字了,也就是該詞在一般用法中實際
> 出現的頻率。
> 
> 那前面出現的各讀音的「音頻」: <number1>,<number2> ... 要放那裡呢?
> 我想就放在 keystroke.src 的 <各字鍵碼的使用頻率> 欄位吧。而那個
> <字鍵碼> 以注音輸入而言自然就是注音碼囉。不過,我想 <各字鍵碼的使用頻率>
> 這個欄位恐怕只有在注音輸入時才會遇到吧,其他輸入法可能就不需要了。
> 
> 這裡很重要一點是 <詞條編號> 欄位,這是模仿 I18N 的 charmap 的做法,
> 在 I18N 中每個字都會有一個編號,也就是 Unicode 的編號,而在 locale
> data 中每個字就用 Unicode 編號來代表,因此,當我們的 locale 要換字
> 集時,就換掉 charmap 就好,不需要連同 locale data 都重寫。
> 
> 這裡也是模仿這樣的精神,如果我們要將詞庫用在別種輸入法上,就換掉
> keystroke.src 即可。但這裡要小心的是,每一個詞條都要有一個獨一無
> 二的編號。因此我們還要再做一項工作,就好像那些國字整理小組或 Unicode
> consoltium 所做的一樣,整理詞條,指定編號,可能還需要同化某些詞條 ....
> etc ....
> 
> 哇! 這麼多工作,要不要定一個計畫表啊? 要不然恐怕會頭昏喔 :-)) 
> 
> 以上只是我的 purposal, any comment?

  欄位的格式應是比較沒什麼問題,主要是欄位的內容。

  至於詞庫一分為二,是不是可行,可能需大家討論一下,我目前想到的是:
  1. 只要 tsi.src 的欄位明確,由 AP 直接取需要的欄位資料來使用。
  2. 分成兩個,AP 使用時各取所需。

  我的疑問是,2. 會不會比較方便有效率?如果 1. 2. 在 AP 實際運用時
  沒有什麼大的差別的話,那分開就沒有必要了!所以需要對各輸入法設計
  有研究的朋友提供意見。

  如果決定要分成兩個,或有其它更複雜些的注記的話,可能要定個計劃表
  ,而且把 tsi.src 獨立出來較妥(唉,自打嘴巴了!:)。不知道大家覺得
  怎麼樣比較好?我的頭已有點昏了!:-))


-- 
Warm Regards,
Edward Lee(李果正)
--------------------------------
大道廢,有仁義。智慧出,有大偽。
--------------------------------

To Unsubscribe: send mail to majordomo@linux.org.tw
with "unsubscribe xcin" in the body of the message



References:
Indexed By Date Previous: Re: [OT] 一些佛教思想
From: william.bbs@openbazaar.net (何陋居主)
Next: Re: [OT] =?BIG5?B?pECox6bysdCr5LdR?=
From: Albert K T Hui <avatar@deva.net>
Indexed By Thread Previous: Re: 詞庫整體規畫(一些舊信供參考)
From: thhsieh@tlug.sinica.edu.tw
Next: Re: 詞庫整體規畫(一些舊信供參考)
From: thhsieh@tlug.sinica.edu.tw