全文検索システム Rast を試す
MOMOのNamazuによる全文検索がどうもうまくいってないので,Software Designに載っていた Rast (ports/textproc/rast)という全文検索システムを研究室のFreeBSDサーバにインストールしてみた.KakashiやChasenのような形態素解析による分かち書き方式じゃなくてNgramによる検索ができるので,検索漏れをなくすことができる.
しかし,英文は問題なくデータベースへの登録も検索もできるものの,日本語のテキストを登録しようとすると,
% rast-create --preserve-text hoge % rast-register hoge ethol/text/ error: invalid multibyte sequence
とエラーになる.
これは道のりが長そうだし,Namazuで検索できるようする方が良さそう.でも,このchasenがうまく動かない問題は以前チャレンジして撃沈したような記憶が……