あるドメインの中にあるWebページと、それが参照している外部ドメインの画像ファイルすべてをダウンロードしたい。
と思って、wget の --recursive --page-requisites --span-hosts オプションあたりを駆使してみたけどぜんぜんうまくいかない(´;ω;`)
Webページは指定したドメイン内のものだけをダウンロードして、画像ファイルは外部ドメインのものもダウンロードする、という分離した指定が wget のオプションではできないみたい。
ChatGPT に聞いてみたり man wget したりして調べてみたけど無理・・・
というわけで、--recursive は諦めて、ダウンロードしたいドメイン内URL一覧をテキストファイルに保存して wget の --input-file オプションで指定してとりあえずの解決。
wget コマンドはこれを使った。
wget \
--random-wait \
--quiet --show-progress \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--adjust-extension \
--span-hosts \
--timestamping \
--base=ドメインのトップページURL \
--input-file=ダウンロードしたいドメイン内のURLのリストを羅列したテキストファイル