HSPポータル
サイトマップ お問い合わせ


HSPTV!掲示板


未解決 解決 停止 削除要請

2015
0928
ぬねのHTMLから画像だけ抽出したい7解決


ぬねの

リンク

2015/9/28(Mon) 22:13:34|NO.72019

こんな時間に申し訳ありません。ぬねのです。

結構前(?)に似たような質問をさせて頂いたのですが、またハマっています。
(http://hsp.tv/play/pforum.php?mode=pastwch&num=68744)
今回は、RSSから記事を取得し、そこから画像のみを抽出するものを書いているのですが、肝心の画像の抽出部分をどう書いても自分の技術だとうまくいきません.....
どうか皆様のお力を貸してください...お願いします。



この記事に返信する


スペース

リンク

2015/9/28(Mon) 22:29:01|NO.72020

htmlの中からurlを抽出し、そのurlが画像か否かを判定すればいいのではないでしょうか?
具体的にはinstrでhttp等を検索し、urlの終わりも同じ方法で検索。
取得できたurlが.jpgや.png等の画像形式で終わっているか否かを判定。
もし画像なら画像をダウンロード。
ダウンロードするプログラムは色々あるけど保存する必要ないならこんなのがある。
http://hsp.tv/play/pforum.php?mode=pastwch&num=47840



スペース

リンク

2015/9/28(Mon) 23:19:10|NO.72021

画像urlを取得するサンプル。
htmlには詳しくないので、「<img src="」と言うユニーク文字で正確に取得できるかは解りません。
この掲示板にはろうとしたのですが、「投稿規約に違反しています。投稿内容は拒否されました。」と表示されて投稿できませんでした。
最後の数行が原因っぽいのですが、規制されそうな単語は一切書いてないのに・・・
https://goo.gl/JOADM0
全体はここにアップしました。



Snake

リンク

2015/9/29(Tue) 18:15:00|NO.72030

たまにあるサイトではimgタグのsrcプロパティに、URLではなくbase64でエンコードした
画像データが組み込まれているかもしれません。その場合を想定すると、どうなるでしょうか・・・。



kanamaru

リンク

2015/9/29(Tue) 18:33:45|NO.72031

hspinetのb64encode,b64decodeは使えませんか?



ぬねの

リンク

2015/9/29(Tue) 21:19:29|NO.72035

>>スペースさん
わざわざソースコードまで有難うございます!
この方法も用いた所殆どの画像が取得できました!

ただやはり時々(稀?)確かにbase64のタイプのサイトも有りますねぇ...
そこら辺はちょっと検討してみます。

(解決のチェックはまだ付けませんのでいい案が浮かびましたら皆さん教えて下さい...)



にゃんちゃん

リンク

2015/10/3(Sat) 08:51:41|NO.72096

b64decodeはバイナリのデコードがやりにくいので、個人的には別モジュールを使うことをお勧めします。
srcを抜き出してアクセスして、httpエラーを拾って、404が出たらデコードにかけてみるとか。



ぬねの

リンク

2015/10/3(Sat) 12:21:48|NO.72098

>>にゃんちゃんさん
確かにその方法ならいけますね!やってみようと思います。
ありがとうございました。



ONION software Copyright 1997-2023(c) All rights reserved.