蝸牛の歩み

蝸牛の如く,ゆっくりでも着実に前へ・・・

全文検索システム Rast を試す

MOMOのNamazuによる全文検索がどうもうまくいってないので,Software Designに載っていた Rastports/textproc/rast)という全文検索システムを研究室のFreeBSDサーバにインストールしてみた.KakashiやChasenのような形態素解析による分かち書き方式じゃなくてNgramによる検索ができるので,検索漏れをなくすことができる.
しかし,英文は問題なくデータベースへの登録も検索もできるものの,日本語のテキストを登録しようとすると,

% rast-create --preserve-text hoge
% rast-register hoge ethol/text/
error: invalid multibyte sequence

とエラーになる.
これは道のりが長そうだし,Namazuで検索できるようする方が良さそう.でも,このchasenがうまく動かない問題は以前チャレンジして撃沈したような記憶が……