全文検索システム構築のためのサイト内解析ツール [H2-4]

H2-4 Last update: 2010-03-26

全文検索システム構築のためのサイト内解析ツール

The analysis tool in a website for constructing a full text search system

名称	全文検索システム構築のためのウェブサイト内解析ツール
用途	全文検索システム構築支援、ウェブページのリンク切れ検出
特徴	ウェブサーバー上にフリーの全文検索システムを構築する際、ウェブサイト内を自動解析して、試作段階のページや部門内限定ページなどを検索対象から除外する。また、ウェブページのリンク切れを検出する。　ウェブサーバー上のページについて、“トップページからのリンクを辿って到達可能か”、“.htaccessファイルでアクセス制限がかけられていないか”を自動解析する。　記述言語はPerlで、HTML-Parserモジュール・パッケージのHTML::LinkExtorモジュールを使用している。
使用上の制限	フリーソフトウェア（オープンソース）
使用法	コマンドラインに解析を開始するHTMLファイルをフルパスで指定する。また、コマンドラインには、オプションを指定することができる。オプション概要 ([ ]の中の値はデフォルト値） -h, --help ヘルプを表示して終了する -a, --access-check .htaccessのアクセス判定を行う -r, --recursive 再帰的にリンクを辿る -L, --link-err-check リンク切れ検出を行う -I, --ip=IPADDR .htaccessのアクセス判定に使用するIPアドレス -D, --domain=NAME .htaccessのアクセス判定に使用するドメイン名 -u, --user ユーザー用ディレクトリについてもリンクを辿る -p, --parent 親ディレクトリについてもリンクを辿る -e, --extra ファイル名以外の情報も出力する -d, --depth=NUMBER 再帰的にリンクを辿る深さ [3] --size=NUMBER HTMLファイルの最大サイズ [10240000] --accept=LIST リストアップするファイルの拡張子 [html,htm,pdf] --html=LIST HTMLファイルの拡張子 [html,htm] --element=LIST リンクを辿るHTMLの要素と属性の組み合わせ [a:href,frame:src,area:href] --idrctv=LIST 無視するディレクティブ [AddType,ErrorDocument] --cache-in=FILE 読み込み用キャッシュファイル --cache-out=FILE 書き込み用キャッシュファイル --server-name=NAME ウェブサーバーのServerName --document-root=DIR ウェブサーバーのDocumentRoot --directory-index=NAME ウェブサーバーのDirectoryIndex [index.html] --user-dir=NAME ウェブサーバーのUserDir [public_html] --access-file-name=NAME ウェブサーバーのAccessFileName [.htaccess]
ダウンロード	2006-03-24 公開
参考資料	wcheet (http://www.nips.ac.jp/~murata/wcheet/) 村田安永(2006)、“全文検索システム構築のためのサイト内解析ツールの開発” 第17回分子科学研究所技術研究会報告集
その他	第17回分子科学研究所技術研究会(2006-03-02,03 開催)で発表