Google 先生に聞いても意外とわからなかったウェブスクレイピング実践編1
先ポスト↓からの続きです。
前置きはいいよ!ということで実際にスクレイピングしていきます。
しかしながら HTML の構造は、作り手とコンテンツ次第で千差万別です。(それ故スクレイピングには一通りの正解のようなものがないのだと思います)
よってここからは、やりたいことごとにサンプルコードを実行して結果を見てみたいと思います。
環境
初っ端からはしょって申し訳ありませんが、スクレイピングの手段として、Ruby, Nokogiri を使います。(Scrapy はコピペしかできない私にはまだ早かったです。)
・ruby 2.3.1p
やりたいこと1:基本サンプルの実行
Qiita で拾ってきたサンプル(URL を変更しました)。
Nokogiriで文字化けを防ぐ - Qiita
1 | # -- coding: utf-8 |
“湯を沸かすほどの熱い愛”
“TOO YOUNG TO DIE! 若くして死ぬ”
“トイレのピエタ”
“紙の月”
“魔女の宅急便”
“映画 謎解きはディナーのあとで”
“The Moment -写真家の欲望-“
“ブラックボード 〜時代と戦った教師たち〜/第一夜 軍国主義[未来]”
“夢のまにまに”
“ゼラチンシルバーLOVE”
“オリヲン座からの招待状”
“花よりもなほ”
“晴れた家”
“阿修羅城の瞳”
“父と暮せば”
“トニー滝谷”
“北の国から 2002遺言”
“たそがれ清兵衛”
“ノートルダムの鐘 II”
“うつつ”
“華の愛 遊園驚夢”
“釣りバカ日誌12 史上最大の有給休暇”
“運転手の恋”
“北の国から’98時代”
“北の国から’95秘密”
“天守物語”
“蛍の光”
“四十七人の刺客”
“欽ちゃんのシネマジャック3 ほのぼの編”
“エロティックな関係”
“豪姫”
“どっちにするの。”
“ぼくらの七日間戦争”```
では、一つのページから複数の要素を取ってきたり、複数ページにまたがるスクレイピングをしたい場合についてはどうでしょうか?
長くなったため、次のポストで試してみたいと思います。
まとめ
簡易なスクレイピングのチュートリアルができました。
Filmarks さん、勝手に利用して申し訳ありませんでした。いつも愛用させていただいております。
filmarks.com
その他参照 Nokogiri 本家サイト
映画.com でスクレイピングを実施している例 RubyのNokogiriを使ってサイトをスクレイピングする - Think Big Act Local
書籍類 ー自動化や運用までの道のりについても触れられており、満足度の高い内容です。環境作りから丁寧に解説されています。