Webの情報をスクレイピングする(スクレイピング①)

失踪予定シリーズです

人から、『Webから定期的に情報を抜いて、蓄積してほしい』との要望を受けました。
軽い気持ちで引き受けたものの、ターゲットとなるサイトはログイン認証が必要だったり、JavaScriptが大量に埋め込まれていたりと、一筋縄ではいかなさそうな感じです。

ターゲットの調査

とにもかくにもターゲットの調査です。
少なくとも、以下の様な特徴があります。(私はWeb関係の知識はからっきしなので、見当違いな部分もあるかもしれません)

・ログイン認証が必要(ログイン認証には、Yahoo認証を使用)
・ログイン後のURLは固有の文字列が渡されており、不正な順で画面遷移をするとログアウトする
 →直リンクなどが不可能
・画面遷移は普通のリンクではなく、javascriptでパラメータを渡して実現している

と、いう感じで少々・・・というかかなり面倒そう。

武器のチョイス

以前にgoogleappsscriptでスクレイピングを実施してサイトの情報を抜いたりしましたが、色々調べた結果、googleappsscriptでの実現は難しそうと判断したため、今回はjavascript + CasperJSでやってみようと計画しています。
しかし、私はjavascriptもスクレイピングも全く知識も無いので実現できるのかどうか・・・。

と、いうことでタイトルには【失踪予定】をつけておきます。
続報が無ければ、そういうことだと思っておいてください。