Silent Power: 5月 2009

2009年5月13日水曜日

Luceneの内部構造を見る３

前回はLuceneインデックスのファイル構成について確認しました。
いよいよ各ファイルについて見ていきますが、その前にLuceneで使われているデータ型が
「Primitive Types」に書いてありますので、確認しておきます。

Byteはフォーマットファイルの最小単位となる8bitです。

UInt32、UInt64はそれぞれ32bit、64bitの固定長の整数で、左側が大きな桁を表します。

VIntは、可変長の整数です。
各byteの一番左の１bitで次のbyteを使用するかどうかを表します。
１なら次のbyteを使用、0なら使用しません。
続く７bitは通常通り、左に行くに従って大きな桁になっていくのですが、
byteを股がる場合は、右のbyteのほうが大きな桁になることに注意してください。
画像の（１）、（２）、（３）の矢印の順に桁が上がっていきます。

CharはUTF-8でエンコードされます。

Stringはまずvintで使用するbyte数を表し、その数だけcharが続きます。

次回は、各ファイルについて見ていきます。

2009年5月10日日曜日

Luceneの内部構造を見る２

Luceneのファイルフォーマットを引き続き見ていきます。

Overviewです。
インデックスはセグメントで構成されます。
セグメントはドキュメントの追加で作成され、マージ操作でまとめられたりします。

各セグメントは、以下のようなファイルで構成されます。
（設定によっては.cfs形式の１つのファイルにまとめられます。）