NAMAZUのコマンドラインオプションと設定情報の表示


NAMAZU全文検索時のオプションは下記の通り


使い方: namazu [options] <query> [index]...
    -n, --max=NUM           一度に表示する件数
    -w, --whence=NUM        表示する検索結果の先頭番号
    -l, --list              検索結果を URI・パス名をリストで出力する
    -s, --short             短い書式で出力する
        --result=EXT        結果表示に用いる NMZ.result.EXT を指定する
        --late              検索結果を新しい順にソートする
        --early             検索結果を古い順にソートする
        --sort=METHOD       ソート方法を指定する (score, date, field:name)
        --ascending         ソートの方向を昇順にする (標準は降順)
    -a, --all               検索結果をすべて表示する
    -c, --count             ヒット数のみを表示する
    -h, --html              HTMLで出力する
    -r, --no-references     参考ヒット数を表示しない
    -H, --page              先の検索結果へのリンクを表示する (ほぼ無意味)
    -F, --form              <form> ... </form> の部分を強制的に表示する
    -R, --no-replace        URI の置き換えを行わない
    -U, --no-decode-uri     URI encode の復元を行わない
    -o, --output=FILE       指定したファイルに検索結果を出力する
    -f, --config=FILE       設定ファイルを指定する
    -C, --show-config       設定を表示する
    -q, --quiet             検索結果以外のメッセージを表示しない
    -d, --debug             デバッグモード
    -v, --version           ヴァージョンを表示する
        --help              このヘルプを表示する
        --norc              設定ファイルを読み込まない
        --                  オプションリストを終了する




NAMAZU全文検索の設定などのオプションは下記の通り


使い方: mknmz [オプション] <対象>...

対象ファイル:
  -a, --all                すべてのファイルを対象とする
  -t, --media-type=MTYPE   対象ファイルの文書形式を指定する
  -h, --mailnews           --media-type='message/rfc822' と同じ
      --mhonarc            --media-type='text/html; x-type=mhonarc' と同じ
  -F, --target-list=FILE   インデックス対象のファイルのリストを読み込む
      --allow=PATTERN      対象とするファイル名の正規表現を指定する
      --deny=PATTERN       拒絶するファイル名の正規表現を指定する
      --exclude=PATTERN    除外するパス名の正規表現を指定する
  -e, --robots             次の記述を含む HTMLファイルを除外する
                           <meta name="ROBOTS" content="NOINDEX">
  -M, --meta               HTMLの metaタグをフィールド指定検索に用いる
  -r, --replace=CODE       URIを置換するためのコードを指定する
      --html-split         HTMLファイルを <a name="..."> 単位で分割処理する
      --mtime=NUM          変更日制限 find(1) の -mtime と同じ規則
                           例: -50 で 50 日以内、+50 で 50 日より古いものだけ

形態素解析:
  -b, --use-mecab          日本語の単語のわかち書きに MeCab を用いる
  -c, --use-chasen         日本語の単語のわかち書きに ChaSen を用いる
  -k, --use-kakasi         日本語の単語のわかち書きに KAKASI を用いる
  -m, --use-chasen-noun    名詞のみを抽出する
  -L, --indexing-lang=LANG インデックス時に言語に特化した処理を行なう

文字列処理:
  -E, --no-edge-symbol     単語の両端の記号は削除する
  -G, --no-okurigana       送り仮名を削除する
  -H, --no-hiragana        平仮名のみの単語は登録しない
  -K, --no-symbol          記号をすべて削除する
      --decode-base64      添付されたBase64エンコード部分をデコードする

要約:
  -U, --no-encode-uri      URIのencodeを行わない
  -x, --no-heading-summary HTML のヘディングによる要約作成を行わない


インデックス作成:
      --update=INDEX       更新するインデックスを指定する
  -z, --check-filesize     サイズが変わったファイルも対象とする
  -Y, --no-delete          削除された文書の検出を行わない
  -Z, --no-update          文書の更新・削除を反映しない

その他:
  -s, --checkpoint         チェックポイント機構を作動させる
  -C, --show-config        現在の設定を表示する
  -f, --config=FILE        設定ファイルを指定する
  -I, --include=FILE       カスタマイズ用ファイルを読み込む
  -O, --output-dir=DIR     インデックスの出力先を指定する
  -T, --template-dir=DIR   NMZ.{head,foot,body}.* のディレクトリを指定する
  -q, --quiet              インデックス処理の最中にメッセージを表示しない
  -v, --version            ヴァージョンを表示する
  -V, --verbose            口やかましいモード
  -d, --debug              デバッグモード
      --help               このヘルプを表示する
      --norc               設定ファイルを読み込まない
      --                   オプションリストを終了する



因みに、対応形式を確認する場合は下記の様に--show-configオプションを使用する


>mknmz -C


表示された形式のうち、
項目の先頭にマイナスが付いているものは現在非対応。
マイナスが付いてないものは現在対応中の形式




全文検索エンジン【NAMAZU】における画像検索設定方法


全文検索エンジン「NAMAZU」では、
デフォルトで画像のファイル名をインデックスしてはくれないようです。
画像ファイル名を検索でヒットさせたい場合は、
フィルタの追加やフィルタリング項目の修正、
フィルタを使うためのモジュールをインストールする必要があります。



下記ページよりimage.plをダウンロードし、
c:\namazu\share\namazu\filter\win32\へ配置する

http://www.interq.or.jp/japan/koi_san/trash/2004/namazu_filter2.htm


image.plを仕様する為に、ppmにて下記をインストールする


>ppm install Image::Info
>ppm install Image::ExifTool
>ppm install IO::String




この段階で、>mknmz -c では画像形式が追加されている事が確認出来るかと思います。


しかし、この状態では画像は拒絶されたり不許可で引っかかったりします。
その制御を変更する為に、次のステップを踏む必要があります。


C:\namazu\share\namazu\pl\conf.pl内では、
拒絶と許可を正規表現で指定されている。

$ALLOW_FILEへは許可する形式を正規表現で指定する。
今回は下記の様な正規表現を追加した。

"|.*\\.png|.*\\.jpg|.*\\.jpeg|.*\\.gif"


続いて、$DENY_FILEでは拒絶する対象を表す正規表現に、
画像形式がデフォルトで入っているので、
画像を拒絶する記述を削除する

#$DENY_FILE = ".*\\.(gif|png|jpg|jpeg)|.*\\.tar\\.gz|core|.*\\.bak|.*~|\\..*|\x23.*";
$DENY_FILE = ".*\\.tar\\.gz|core|.*\\.bak|.*~|\\..*|\x23.*"; # 画像の拒否を解除する



改めてインデックスを作成すると、許可した形式の画像がインデックスされ、
画像のファイル名が検索でヒットするようになります。

人気の投稿

Category

Algorithm (2) Android (8) ASP/aspx (1) Blogger (2) C/C++ (1) Chrome (5) CSS (9) Firefox (4) Fortran (1) Google (9) GoogleMap (2) HTML (12) IE (3) Information (4) iOS (2) iPhone/iPad/iPod (2) Java (6) JavaScript (16) jQuery (9) JSP (1) LifeRecipe (5) Linux (2) Macintosh (2) MapKit (4) Marketing (7) MySQL (3) NAMAZU (2) Objective-C (7) Other (7) Perl (1) PHP (9) Python (1) RSS/Atom (2) Ruby (1) Safari (2) SEO (11) Smarty (2) SQL (2) Tex (1) Three.js (1) Twitter (1) TwitterLog (313) UIKit (5) Unix (1) VBA/VBS (1) Windows (5) WordPress (3) Writing (5) XAMPP (1) XML (1) Yahoo (2) ZendFramework2 (14)