UEPiです!
今回はタイトルにあるように、python で指定したサイトの画像を自動で収集するプログラムを作成してみたいと思います!
目次
参考サイト
くぐります!色々出てきますねえ。
出てくるねぇ。。多いねぇ。。
みんあ微妙に違う。。
どうやらrequests , BeautifulSoup, lxmlがいるらしい。
ここが参考になりそうだ!
【コード公開】【Python】スクレイピングで特定URL内の画像を丸ごと収集
【コード公開】【Python】スクレイピングで特定URL内の画像を丸ごと収集 | Analytics Board | python・Reactを勉強したい初心者のための入門サイト
コーディング
参考にしながら書き書きコピペコピペ…(ほぼコピペ)
今回はUEPiのブログから画像をスクレイピングしてみます。
URL:https://uepi.hatenablog.jp/entry/2019/04/01/060346
上記URLには下記の画像があるので、それらが事前に用意しておいたimgフォルダに保存されるはず。
実行
Ctrl + Enterで実行!
completed!と出ているのでできてるっぽいですね!
フォルダを見ると、URLに掲載されている画像がimgフォルダに保存されているのがわかります。
こんな簡単に任意のサイトの画像をスクレイピングできるんかぁと満足したUEPiでした!笑
でも実はこんなに物事は簡単じゃなくて、
画像スクレイピングできないサイトが多々ある!
例えば、美女の画像をたくさん収集したと思い、世界美女ランキングのサイトを作ったプログラムに挿入しても、画像がimgフォルダにありません!!orz
URL:https://ranking-best.net/668
スクレイピングできない原因
画像の要素を検証で確認してみるとsrc="以降の文字列の終わりが.jpgで終わっていない。。。私のプログラムではendwithが.jpgとか.pngで終わってるからスクレイピングできていないのでしょうか。誰か教えてください。
如何せん興味本位でプログラミングを始めた超初心者なので、原因がわかりません笑
ということで、ひとまずサイトによっては画像のスクレイピングができることが分かったので良しとしましょう!笑
100%できなくても良いので少しずつ前に進んで行きたいと思います!
独りで勉強はなかなか難しいですな!
最後まで読んでいただきありがとうございました!
誰か私にpythonをレクチャーください!笑
いいね