スクレイピング

Pythonの使い方

seleniumによるHTMLの解析速度を10倍速くした方法

Seleniumでスクレイピングすると、サーバからHTML・CSS等をダウンロードする時間よりも、HTMLを解析する時間の方が長くなる傾向がありました。HTML解析をなんの工夫しないで実装すると、絶望的に長くなります。 で...
Pythonの使い方

PythonとSeleniumをheadlessで動かしても速くならない理由

seleniumをheadlessモードで動かすと速くなると言われていますが、実際に測定したことがなかったので測定してみました。 結果は、ヘッドレスモードで速くなるものの、現実的なWEBスクレイピングの運用では、ヘッドレス...
Pythonの使い方

【Python】Seleniumが遅い原因と対処法【知らないとヤバい】

Seleniumでスクレイピングしていたのですが、解析するページ数が増すにつれて、遅さを無視できなくなりました。速くする方法は、言うまでものなく「Seleniumへのアクセスを減らせば速くなる」です。 しかし、どのようなア...
Pythonの使い方

【Python】Seleniumのタイムアウト設定の使い方

タイムアウトの設定って、使い方によってはスクレピングの無駄を省いてくれるのですが、情報が少なくピンと来ませんでした。seleniumの公式サイトを見ても、少しわかりづらいです。 恐らく他の人もそうなんじゃないかと思って、参...
スクレイピング

スクレイピング技術の利用で出来る事 用途例3選

情報収集が含まれる業務をしているのですが、もはやスクレイピングは欠かせないです。以前は1つ作る作業時間は20分でした。スクレイピングを利用している今は、わずか10秒~2分で済みます。 何で早くなったかというと、利用前は複数...
Pythonの使い方

【Python】スクレイピングにおける要素特定は、XPathかCSSセレクターか

スクレイピングにおいて、HTML要素の特定する手段は、XPathとCSSセレクターの2つがあります。Pythonでスクレイピングを始めた当初、どっちで要素を特定するか迷いました。迷わないように参考になる情報をまとめておきました。 ...
Pythonの使い方

【Python】requestsを使った画像ファイルのダウンロードの失敗事例

画像ファイルのダウンロードの失敗事例です。明らかに画像取得目的の"User-Agent"でもって、数十回とリクエストしたところ、リクエストとは異なる画像ファイルが毎回送信されてくるようになりました。そして、"User-Agent"を設定...
Pythonの使い方

【Python】Seleniumで安全に画像保存する方法

Seleniumを使ったPythonによるスクレイピングで、イメージファイルをダウンロードをする方法です。ダウンロードのため、もう一回サーバにgetリクエストするのは無駄な気がしたので、ブラウザに表示されているものを保存します。 ...
Pythonの使い方

【Python】SeleniumのCSSセレクターの使い方

SeleniumでHTMLの要素を特定するCSSセレクターのサンプルです。ID名やClass名で要素を取得するメソッドがありますが、WEBページのデザイン変更時の変更が厄介です。コード量の増加は、不具合が入り込む可能性が高くなるからです...
スクレイピング

【Python】スクレイピングで配慮している重要ポイント

スクレイピングや自動操作を禁止していないWEBサイトでも、配慮が必要と考えています。ページ読み込みにランダムで5~20秒ほど空けるといったサーバに優しいのはもちろんですが、他にもあります。それをしなければ、サイト運営者に配慮した作りにし...
タイトルとURLをコピーしました