libgajaf
履歴閲覧: 最新 {2004/12/28[差分表示]} 2003/10/31 2002/02/01
LIBrary for GAtcha JApanese Findの略でlibgajaf.
シグネチャ法に基づく、インデックスを利用した日本語全文検索システムの構築用ライブラリ。
俺様の日記で使っているのはこれ。
しかし誰にも利用を勧めないのは、汎用のインデクシング&検索用のCGI作成をサボっているから。
詳しいことはドキュメント読んで下さい。そのうちこっちに移動するかと思うけど。
実は最近のバージョンだと、インデックスの適合精度がそれなりらしく、実ファイルに対しての確認動作を行なわなくてもボチボチの結果になる、かもしれない。
漢字1文字とかは目も当てられない結果になるだろうが。
最近はUTF-8化したいという気もしてきた。
野放図な思索
とりあえずこのコーナーだけこっちで継続。ときどき思い出したように何か考える用。ツッコミ大歓迎。
検索固有ビット
検索インデックスに、「よく検索される語固有ビット」を入れてしまおうというad hocで大胆で無茶な発想。
実行された検索クエリの統計を取っておいて、再構築時に反映するのが妥当な考え方である。
妥当でない考え方としては、動的に検索クエリを固有ビット化するという方式が考えられる。再インデクシングのときに上手に反映させられるかが鍵か。