生理学実験技術データベース
Experimental Techniques for Physiological Sciences

H2-4 Last update: 2010-03-26

全文検索システム構築のためのサイト内解析ツール

The analysis tool in a website for constructing a full text search system
名称 全文検索システム構築のためのウェブサイト内解析ツール
用途 全文検索システム構築支援、ウェブページのリンク切れ検出
特徴  ウェブサーバー上にフリーの全文検索システムを構築する際、ウェブサイト内を自動解析して、試作段階のページや部門内限定ページなどを検索対象から除外する。また、ウェブページのリンク切れを検出する。
 ウェブサーバー上のページについて、“トップページからのリンクを辿って到達可能か”、“.htaccessファイルでアクセス制限がかけられていないか”を自動解析する。
 記述言語はPerlで、HTML-Parserモジュール・パッケージのHTML::LinkExtorモジュールを使用している。
使用上の制限 フリーソフトウェア(オープンソース)
使用法 コマンドラインに解析を開始するHTMLファイルをフルパスで指定する。
また、コマンドラインには、オプションを指定することができる。
オプション
概要 ([ ]の中の値はデフォルト値)
-h, --help
ヘルプを表示して終了する
-a, --access-check
.htaccessのアクセス判定を行う
-r, --recursive
再帰的にリンクを辿る
-L, --link-err-check
リンク切れ検出を行う
-I, --ip=IPADDR
.htaccessのアクセス判定に使用するIPアドレス
-D, --domain=NAME
.htaccessのアクセス判定に使用するドメイン名
-u, --user
ユーザー用ディレクトリについてもリンクを辿る
-p, --parent
親ディレクトリについてもリンクを辿る
-e, --extra
ファイル名以外の情報も出力する
-d, --depth=NUMBER
再帰的にリンクを辿る深さ [3]
--size=NUMBER
HTMLファイルの最大サイズ [10240000]
--accept=LIST
リストアップするファイルの拡張子 [html,htm,pdf]
--html=LIST
HTMLファイルの拡張子 [html,htm]
--element=LIST
リンクを辿るHTMLの要素と属性の組み合わせ [a:href,frame:src,area:href]
--idrctv=LIST
無視するディレクティブ [AddType,ErrorDocument]
--cache-in=FILE
読み込み用キャッシュファイル
--cache-out=FILE
書き込み用キャッシュファイル
--server-name=NAME
ウェブサーバーのServerName
--document-root=DIR
ウェブサーバーのDocumentRoot
--directory-index=NAME
ウェブサーバーのDirectoryIndex [index.html]
--user-dir=NAME
ウェブサーバーのUserDir [public_html]
--access-file-name=NAME
ウェブサーバーのAccessFileName [.htaccess]
ダウンロード 2006-03-24 公開
参考資料
  1. wcheet (http://www.nips.ac.jp/~murata/wcheet/)
  2. 村田安永(2006)、“全文検索システム構築のためのサイト内解析ツールの開発”
    第17回分子科学研究所技術研究会報告集
その他 第17回分子科学研究所技術研究会(2006-03-02,03 開催)で発表