Canna辞書のこと

$Id: dic.txt,v 1.4 2003/08/31 14:15:17 aida_s Exp $


cannaの辞書には自立語辞書と付属語辞書があり、それぞれMWD,SWDというコードで識別される。このほか、内部ではPRE辞書、SUC辞書というものが定義されており、
それぞれ接頭語、接尾語の辞書になっているようだが、現在のところ使われておらず、動作するかどうかも不明である。

また、辞書の形式はテキスト形式とバイナリ形式がある。テキスト辞書は、単語登録が可能であり、学習によっても内容が変化する。そのかわりマウントに空間的・時間的
コストがかかるため、ユーザー辞書や専門用語辞書に使われる。また、保持できる学習情報は、単語の優先順位と、前回使われてからの仮想的時間(tick)だけである。
なお、付属語辞書のうち、fuzokugo.cbdは、語彙データの他に文法データを持つため、テキスト形式にはできない。

バイナリ辞書は、サーバとともにインストールされ、そのまま内容が変化しない。単語登録はできず、学習情報は別に作られた学習ファイル(.cld)に保存される。
検索に適した木構造をあらかじめ持っているので、マウント時に新しく管理情報を生成する必要がなく、mmap()だけでアクセスすることも可能になっている。
また、1つの.cbdの中にバイナリ辞書を複数格納することも可能である。これは単に複数のバイナリ辞書をcatでつなげただけの形式である。.cbd全体と区別
するため、.cbd内の個々の辞書を以下辞書メンバ(DM)と呼ぶ。

コメント

このブログの人気の投稿

米 トランス脂肪酸使用規制へ

手の平で操作する空中マウス OZUPAD

BusyBox HTTPD で Drupal を動かそう

Android の RUU から rom.zip を取り出す

radiko.jp の再生、録音で rtmpdump が Segmentation fault

Alpine LinuxのAPKBUILDに挑戦

VirtualBoxのキーリピート現象