投稿

10月, 2007の投稿を表示しています

Canna辞書のこと

$Id: dic.txt,v 1.4 2003/08/31 14:15:17 aida_s Exp $ cannaの辞書には自立語辞書と付属語辞書があり、それぞれMWD,SWDというコードで識別される。このほか、内部ではPRE辞書、SUC辞書というものが定義されており、 それぞれ接頭語、接尾語の辞書になっているようだが、現在のところ使われておらず、動作するかどうかも不明である。 また、辞書の形式はテキスト形式とバイナリ形式がある。テキスト辞書は、単語登録が可能であり、学習によっても内容が変化する。そのかわりマウントに空間的・時間的 コストがかかるため、ユーザー辞書や専門用語辞書に使われる。また、保持できる学習情報は、単語の優先順位と、前回使われてからの仮想的時間(tick)だけである。 なお、付属語辞書のうち、fuzokugo.cbdは、語彙データの他に文法データを持つため、テキスト形式にはできない。 バイナリ辞書は、サーバとともにインストールされ、そのまま内容が変化しない。単語登録はできず、学習情報は別に作られた学習ファイル(.cld)に保存される。 検索に適した木構造をあらかじめ持っているので、マウント時に新しく管理情報を生成する必要がなく、mmap()だけでアクセスすることも可能になっている。 また、1つの.cbdの中にバイナリ辞書を複数格納することも可能である。これは単に複数のバイナリ辞書をcatでつなげただけの形式である。.cbd全体と区別 するため、.cbd内の個々の辞書を以下辞書メンバ(DM)と呼ぶ。

vim でマッチする行,しない行

マッチした行を削除 :g/hogehoge/d マッチしない行を削除 :v/hogehoge/d