wcheet はWebサーバー上で稼動させることを前提としたツールです。 リンクを辿るのはWebサーバー上に置かれたページのみで、 自動巡回ソフトのように他のWebサイトからページをダウンロードするような 機能はありません。
自動巡回ソフトでWebサーバー上のページを全てダウンロードし、 その情報を使って全文検索システムを構築するという方法も考えられますが、 この方法では、ダウンロードに余計な時間がかかったり、 Webサーバーのアクセスログが肥大化するなどの問題があります。
また、自動巡回ソフトには .htaccessファイルを解析する機能はないと思います。 wcheet を使用すれば、アクセス制限別にページを分類することも 容易に実現できますが、自動巡回ソフトでの実現は難しいと思います。
1回目の解析にはどうしてもWebサーバーに負荷がかかってしまいますが、 2回目以降の解析はキャッシュファイルを使うことで負荷を大幅に減らせます。 キャッシュファイルの使い方は コマンドライン・オプションをご参照ください。
オブジェクト指向でプログラミングしていません。 これから勉強していきたいと思います。
1ファイルの方が手軽にインストールできて便利なので、 いまのところ分割する予定はありません。
wcheet は HTML::LinkExtorモジュールを使用して、 リンク情報を抽出しています。
HTML::LinkExtorモジュールがXHTMLに対応しているのかは不明ですが、 作者の環境では問題なくリンクを抽出できています。
ページの文字コードが ISO-2022-JP, Shift_JIS, EUC-JP, UTF-8, UTF-16, BOM 付きの UTF-32 以外の場合は、正常にリンクを抽出できない可能性があります。
韓国語や中国語のページは UTF-8 で作成してもらうのがよいと思います。 もし、これが無理な場合はご連絡ください。
Copyright(C) 2006-2007 MURATA Yasuhisa. All rights reserved.