スクレイピングについて #1

project1

とりあえずやりたいことを言語化してみる

やりたいこと

mainから情報をHTMLファイルでローカルに保存したい

本命のサイト「main」に欲しい情報がある

url構造はロケーションを表す二桁の数字+年月日、”00”+”19990101”

データ加工がまだよくわからないからとりあえず対象のページのHTMLファイルをローカルに持ってきたい。

問題点

これだけならrequestsとBeautifulSoup使ってforで回せば行けそうだけど、データが2週間とか飛んでる事があるのでそこにはアクセスしないようにしたい。

(Not dateのページを避けたい)

解決方法

「sub」サイトに都合よくデータがある日にちがあるのでそこから日付データを持ってきてリスト化するなりして回したい。

ただ、url構造みたいなのがない

selenium + Beautiful Soup を使えば良さそう。

具体的には?

回るURLの元素をリスト化する

「sub」にアクセスしてロケーション、年月を選択し確定を押すと日にちがでてくる。

ロケーション、年月、日にちを取得できるなら

ロケーション(00)、年月(1999年01月)、日にち(01-30)が手に入るはず

これをre関数を使うなりして年と月と日を外して”0019990101”のような数値にする

event_date リストに突っ込んでファイル化したい

mainからHTMLファイルを取ってくる

上でやった処理で出来たファイルを読み取り

”https://www.main/” + “event_date[i]”で回してHTMLファイルをローカルに取得する

調べること

Selenium辺の使い方はとりあえずやったのであとは使いながら調べる。

とりあえず知識として必要そうなのは

  • リストを外部にtextファイル?なりで保存する方法
  • 外部に保存したリストの読み込み方法

ここらへんはとりあえずすぐに調べておきたい。

コメント

タイトルとURLをコピーしました