huginn : WWW 更新時刻取得システム

huginn(フギン)は、perl汎用のWorld Wide Web更新時刻取得システムです。

huginnの実行環境

動作サンプル

こちらにてサンプルが動いてます。

hugginの開発状況

使い方

  1. アーカイブを取得し、適当な場所で解凍。
  2. libhuginn,pm、huginn.confを、perl5のライブラリ読み取りパスに入れる。(PERL5LIB環境変数で設定する、適当なsite-perlディレクトリに入れる、スクリプト実行時に@INCで設定する、など)
  3. huginn.confを適当に書き変える。$resulthtmlとか$gzipとかがわりと重要。
  4. huginn.confで設定した場所に、'dot.huginnrc'を'.huginnrc'に改名して入れる。
  5. .huginnrcに、取得したいページのエントリを記述する。
  6. DateCheck.plを動かします。ネットワークにガシガシと負荷をかけながら、huginn.confで設定したいろんなファイルがごそごそと作られます。
  7. ちゃんと動作しているようなら、cronでぶん回すなり、定期的に手動で動かすなり、お好みに合わせて環境構築してください。

なんかめんどくさいと思ったら、.huginnrcだけホームディレクトリに置いて、他は全部同じディレクトリに放りこんでください。たぶんなんとかなります。

設定ファイルの記述方法については、サンプルをみて根性入れてください。あるいは、YaPw:libhuginnの.huginnrc書き方とかを見てもよいかと思います。よーわからんかったらどーにかして質問してください。そうするとドキュメントが増えて幸せになれます。

書こうとするマクロが正しいもんかどうかは、huginn_testmacro.plでテストできます。% ./huginn_testmacro.pl 'マクロ'とかやってください。

取得方法

以下の順で更新時刻情報の取得を試します。

  1. リモート情報(hina.di、hina.txt、LIRS)
  2. HEADリクエストで取れる最終更新時刻
  3. GETリクエストで取得した本文中の、それっぽい文字列
  4. GETリクエストで取得した本文の長さの変化量

バカスカ出力が変わる困ったちゃんなiswebやらgeocitiesのためにそれ用のフィルタもあったりします。動作はあんまり保証しません。使い方は適当にどうぞ。

今後の予定

過去のバージョン

2.01a3版
tar.gz形式アーカイブ

2.01a2版
tar.gz形式アーカイブ

1.20版
時刻取得スクリプト本体実行用ライブラリ設定ファイルサンプルが閲覧・取得可能です

名前の由来

huginnは、北欧神話の神オーディン(Odin)の持つ二羽のカラスの片割れで、「思考」を象徴するものです。

権利表示

huginn の改造・利用は基本的に自由です。ただし、改造の有無に関わらず、再配布の際には、取得者になんらかの形で原情報所在地へのポインタ(2002年2月28日現在:http://white.vis.ne.jp/huggin/)を明示してください。


文責 : 中田吉法(white@mh.vis.ne.jp