スクレイピングについて #2

project1

やりたいこと

ターゲットURLは手に入ったのでそれを元に

  • 結果ページを取得
    • 結果ページが「レース中止」の場合、取得をやめる
  • 出走表ページを取得
  • 直前情報ページを取得

注意点

AM4時から4時半までサイトメンテナンスがあるみたいなので、プログラミングを止めて適度に再開したい。

流れを考える

以前に取得しているURLがあればそこから続ける

ファイル操作して「target_text.html」をリスト化

ターゲットURLをリスト化して差分を取りそこからスタートする

レース情報を取得していく

「結果」「レース情報」「事前情報」のURLにアクセスする

レースが中止だったら

「結果」ページに「レース中止」と書かれているので取得して

処理をパスする

レースがあれば

「結果」「レース情報」「事前情報」を取得して「target_text.html」として保存する

サーバーメンテを避ける

4時からメンテナンスみたいなので余裕を持ってAM3:45くらいで終了させる

5時半くらいでCronで毎日実行する

これで良さそう?

とりあえずこんな感じでコード書く

後気になる点は風向きが画像なので漢字に置き換えたい

↑多分後からできると思うのでその時考えるかな

コメント

タイトルとURLをコピーしました