生理学実験技術データベース
Experimental Techniques for Physiological Sciences
H2-4
Last update: 2010-03-26
全文検索システム構築のためのサイト内解析ツール
The analysis tool in a website for constructing a full text search system
名称
|
全文検索システム構築のためのウェブサイト内解析ツール
|
用途
|
全文検索システム構築支援、ウェブページのリンク切れ検出
|
特徴
|
ウェブサーバー上にフリーの全文検索システムを構築する際、ウェブサイト内を自動解析して、試作段階のページや部門内限定ページなどを検索対象から除外する。また、ウェブページのリンク切れを検出する。
ウェブサーバー上のページについて、“トップページからのリンクを辿って到達可能か”、“.htaccessファイルでアクセス制限がかけられていないか”を自動解析する。
記述言語はPerlで、HTML-Parserモジュール・パッケージのHTML::LinkExtorモジュールを使用している。
|
使用上の制限
|
フリーソフトウェア(オープンソース)
|
使用法
|
コマンドラインに解析を開始するHTMLファイルをフルパスで指定する。
また、コマンドラインには、オプションを指定することができる。
- オプション
- 概要 ([ ]の中の値はデフォルト値)
- -h, --help
- ヘルプを表示して終了する
- -a, --access-check
- .htaccessのアクセス判定を行う
- -r, --recursive
- 再帰的にリンクを辿る
- -L, --link-err-check
- リンク切れ検出を行う
- -I, --ip=IPADDR
- .htaccessのアクセス判定に使用するIPアドレス
- -D, --domain=NAME
- .htaccessのアクセス判定に使用するドメイン名
- -u, --user
- ユーザー用ディレクトリについてもリンクを辿る
- -p, --parent
- 親ディレクトリについてもリンクを辿る
- -e, --extra
- ファイル名以外の情報も出力する
- -d, --depth=NUMBER
- 再帰的にリンクを辿る深さ [3]
- --size=NUMBER
- HTMLファイルの最大サイズ [10240000]
- --accept=LIST
- リストアップするファイルの拡張子 [html,htm,pdf]
- --html=LIST
- HTMLファイルの拡張子 [html,htm]
- --element=LIST
- リンクを辿るHTMLの要素と属性の組み合わせ [a:href,frame:src,area:href]
- --idrctv=LIST
- 無視するディレクティブ [AddType,ErrorDocument]
- --cache-in=FILE
- 読み込み用キャッシュファイル
- --cache-out=FILE
- 書き込み用キャッシュファイル
- --server-name=NAME
- ウェブサーバーのServerName
- --document-root=DIR
- ウェブサーバーのDocumentRoot
- --directory-index=NAME
- ウェブサーバーのDirectoryIndex [index.html]
- --user-dir=NAME
- ウェブサーバーのUserDir [public_html]
- --access-file-name=NAME
- ウェブサーバーのAccessFileName [.htaccess]
|
ダウンロード
|
2006-03-24 公開
|
参考資料
|
- wcheet (http://www.nips.ac.jp/~murata/wcheet/)
- 村田安永(2006)、“全文検索システム構築のためのサイト内解析ツールの開発”
第17回分子科学研究所技術研究会報告集
|
その他
|
第17回分子科学研究所技術研究会(2006-03-02,03 開催)で発表
|