上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
 Namazuはオープンソースの全文検索システムです。HTMLやテキストファイルを読み込んで、インデックス(索引)を作成して、検索キーワードを入力するとそのキーワードが含まれているファイル(ページ)をペッと吐き出す、そんな感じの奴です。標準ではPageRank機能は積んでいませんが、Googleみたいな奴だと思えばいいでしょう。

文書に対応したフィルタというものを準備すれば、様々なファイル形式を検索対象に含めることが出来、Excel、Word、PowerPoint、PDFなんかのフィルタもちゃんと用意されています。また、NamazuをインストールしたマシンにWebサーバが積んであれば、CGIとして簡単にサイト内検索機能を構築できる優れものです。Webサーバなんて関係無くて、単に自分のパソコンのファイルを検索したいんだよ、って場合にはGUIで操作できるWindows用の検索クライアントも開発されています。

 私の職場ではファイル(web)サーバでCGIとして動かし、namazurcのReplaceでスキーム名をhttpではなくfileに書き換えて、ネットワークドライブ検索に使っています。
 この、web検索画面からfileスキーム経由でファイルサーバのファイルにアクセスする方法の問題として、一つはFirefox(Mozilla)等では動作しないという事があります。

セキュリティ上の理由から、Mozilla は Web 上のコンテンツからローカルファイルへのリンクを許可していません。(Mozilla-Japan)

user.jsの編集で対応するのも気が乗らないので、登録しておいたURLだけを指定しておいたブラウザで開けるようにする、ieviewという拡張で対応しようと思っています。

 またNamazu自体の課題として、スコアの重み付けのカスタマイズと、辞書のカスタマイズが放置されています。

 htmlのスコアはタグの種類による重み付けや単語の出現頻度から算出されているようなのですが、ファイルサーバのほとんどを占めているExcelファイル、Wordファイルのスコア算出方法がよくわかっていません。ファイル名による重みを増加させて、そのファイルへのアクセス回数なんかもスコア計算に含められるといいのですが、フィルタに手を入れる事で解決できるんでしょうか。

 辞書の強化は、検索に使われたキーワードを記録しているNMZ.slogから、自動で辞書に追加するような仕組みがあれば便利そうです。Namazuのフレイズ検索は怪しすぎます。
コメント
この記事へのコメント
コメントを投稿する
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
この記事へのトラックバック
copyright © 2005 The elephant vanishes all rights reserved.
Powered by FC2ブログ.
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。