リブショカ(図書館書架)β版

リブショカ(図書館書架)に関する情報発信

書誌検索について

もうすでに,現役を離れて久しい。あくまでもこれは今回のシステムからの

視点であって,図書館システムがあるべき姿を見据えている訳ではない。

 

書誌検索の最大のポイントは,いかにノイズを少なく的確に利用者が

イメージした資料ニーズを充足できるかにある。これは何も,機械化された

書誌検索の仕組みに特化したものではない。カード目録も同じコンセプトで

件名をつけ,アクセスポイントを切りだし,マニュアルとカードでできる限り

の理想を追い求めた。そこにあったのは,データベース全盛の現在からは全く

評価されないが,合理的な検索手法の集大成であったと思う。カード目録

時代とDB検索を共に経験した技術者は,カード目録の理想に引っ張られて

いる部分があると思う。当然,自身を含めてだ。いまでも検索ノイズは

ある種の必要悪とはわかりながら,どうもしっくりこない。これがn-gram

使わない理由の一つだ。mecabによる辞書切りだしは面倒である。ここを

諦めればマネージドのmysqlを使うことも可能かもしれない。どこかの業者が

mysql+mroongaをサポートするのは時間の問題だと思っている。しかし,

mecabをサポートしてくれるとは思えない。なぜなら,ほとんどのユーザー

にとって,n-grammecabの違いなどどうでもよいからだ。ユーザーにとって

必要なことは,表示ページでの順位であり1ページ目に表示された書誌が

いかに自分のニーズを満たしてくれるかである。入力語に対する正確性など

殆ど気にも留めていないだろう。

 

結局,今回の開発でも,mecabを使うことにした。mysql+mroonga+mecab

である。そもそも書誌情報は文字数が少ないことから,全文検索に向かない。

だからこそ,ヒットノイズは可能な限り削りおとしていくべきだ。そのためには

優れた辞書と絶え間ないメンテナンスが必要になる。さて,現在の図書館システム

は,どのような検索手法を取っているのだろうか。n-gramだろうか,

辞書インデックスだろうか。ノイズを許容してn-gramを使うのであれば,

ページランク的な機能が必要ではないだろうか。辞書インデックスであれば,

ユーザーが集まって辞書の育成に力をいれているのだろうか。

 

仕組みよりも,ニーズの充足。現役を離れてあまり制約がないからこそ,

いろいろと試してみたいこともある。