スクレイピング技術の利用で出来る事 用途例3選

情報収集が含まれる業務をしているのですが、もはやスクレイピングは欠かせないです。以前は1つ作る作業時間は20分でした。スクレイピングを利用している今は、わずか10秒~2分で済みます。

何で早くなったかというと、利用前は複数の情報をWEBサイトから収集して、1つのデータを作り、目で確認して完了いましたが、今はほぼ確認作業だけで済むからです。

作業時間が最悪でも10倍に高速化され、尚且つ、人の編集と比較して誤りが少ないです。そのような訳で、1日で出来る量が、30だったものが、今は300にも増えました。赤い彗星のシャアも、真っ青でしょう。

実装もしている者から見ると、なんで皆もっと早く業務に活かさないんだろうかって思いますね。

スクレイピングとその周辺技術でできることを知らないためかな思って、参考になるように、技術的に可能な事と、どの様な案件があったのか具体的な例をまとめした。

スクレイピングとその周辺時術によって、できること 3選

WEBスクレイピングとは、WEBサイトのHTMLの構造解析をして、必要なデータを得ることを指します。

しかし、収集目的のため他の技術を伴います。具体的には、定期的にWEBサイトに訪問して収集するといったクローリング技術や、WEBサイト提供のAPIの活用です。

これらはスクレイピングとは別の技術ですが、スクレイピングの活用についての話なので、併せてまとめています。

人がするようにブラウザ操作ができる もはや限定RPA

スクレイピングとは少しずれたブラウザ操作系技術です。ブラウザを外部から操作することにより、リンクやボタンのクリックの他、テキストボックスに文字列を入れられます。

そのため、会員制のサイトであっても、ログインができ、会員情報しか閲覧できない情報も収集できるのです。

スクレイピングでできること 3選 キー入力

また、キー操作もでき、WindowsでBSキーを入れると、ブラウザバックできます。

Googleの検索結果が複数のページにわたるものは、下部に「1 2 3 4 5 6 7 8 9 次へ」とリンクが表示されますが、これをクリックして他のページに移ることが可能です。なので、ブラウザに限定されますがRPAなんじゃないかと見ています。

WEBページからのデータ収集

人によらないスクレイピングによるデータ収集の利点です。

ちなみに、データ収集だけが目的の場合、私はまっさ先にAPIの有無をチェックしています。サイトが提供しているAPIによるデータ収集の方が、取得データに確実性があるからです。HTMLを解析しようとすると、ページデザインの変更が可能性が心配だからです。

取得時にデータの正確性を確認できる

ウェブページのHTMLを構造解析して、必要なデータを取得します。

人がデータ取得しようとすると間違いの心配があります。人はWEBページを開いて、コピー&ペーストでデータを取得しますが、ミスも正確性の未確認も起こりえます。

これと比較すると、スクレイピングの方が断然信頼がおけます。

人と比較して圧倒的高速な収集が可能

複数のサイトを収集する場合、人は同時に複数をこなすのに限外がありますが、機械は並列で収集できるからです。

Yahooファイナンスで個別企業の財務諸表を取得しつつ、企業のサイトのデータを拾うことも可能です。人はこんなことはできません。

定期的に情報収集可能

定期的にスクレイピングすることで、データの動きが保存できます。

Amazonのようなショッピングサイトは、その時点のデータしかありません。しかし、時系列データが欲しい時もあります。そのような時、毎日Amazonをスクレイピングすることで、価格変動の様子が確認できるのです。価格COMは、このように取得しています。

ちなみに、アマゾンを例に出しましたが、AmazonはAPIを提供しています。

ファイルのダウンロードができる

WEBページをスクレイピングして、そこから必要なファイルをダウンロードできます。

ファイル数が20以上となると、人と比べた場合、実装して走らせた方が断然早くなります。

・画像、PDF、CSV等のファイルのダウンロード

YouTubeで、Googleの画像検索の結果から、アイドルの写真をダウンロードするものがありました。

スクレイピングでできること 3選 JavaScript

検索結果のブラウザの下の方にスクロールすると、それまで画面に表れなかった新たな検索結果が表示されます。人がブラウザを操作する場合、スクロールしきってからダウンロードをします。

しかし、スクレイピングによるダウンロードは、これも機械的に制御してくれます。勝手に下にスクロールして、新たな画像が出現しダウンロード対象となるのです。しかも、人と違って取りこぼしの心配がありません。

画像に限らず、xlsxファイルやPDFファイル等のウェブ上で誰でも取得敵るようなファイルは、機械的にダウンロードできます。

スクレイピングできるライブラリとは

ここまで話した事は、全てのライブラリでできるとは限りません。以前にできるライブラリをまとめていますので、そちらを参照してみて下さい。

【Python】スクレイピング案件に使えるライブラリ3選
Pythonのスクレイピング案件に使えるライブラリ3選 スクレイピングのライブラリは選択に迷う程あります。その中でも、業務で使うのにふさわしいものをピックアップしました。クライアントさんからの要求は開発中に変化するものなので、でき...

スクレイピングとその周辺技術の用途 3選

どういった使い方をしているのかって事ですが、クラウドワークスランサーズのスクレイピング案件を見るとわかります。

主な要求事項は、インターネットを介して情報収集して、その結果をGoogleのスプレッドシートに入れるものです。単純なルーチンワークのプログラミング化を求められている案件が多いように感じられます。

営業先候補の抽出

新規法人や個人事業の取得です。タウンワークのような事業者が登録されるサイトから、特定の条件下で一部情報だけを抽出して収集するものです。

収集先が法人に限定ならば、国税庁 法人番号公表サイトで足ります。ここには、全国の法人番号をもっている法人組織が登録されています。しかし、個人事業まではわかりません。そして詳しい事業内容も得られません。そこで、特定サイトから情報を取得する依頼が発生しています。

単発の単純作業な事務作業をプログラミングに置き換えるものです。作りは単純で、時間配分は、実装やテストの工数よりも、要求仕様を把握の方が多くなりそうな、手間の少ない案件です。

小売業による市場調査

インターネット上の販売価格の自動収集です。特定ショップで価格変動があったら、いち早くスマホに知らせるものになります。

また、口コミにも注目している小売点もあり、これもスクレイピングの対象になる案件が見られました。消費者庁の報告書「消費者の信頼を確保するための消費者レビューの管理」によると、消費者のレビューが購入の決め手になっている割合が6割になっており、小売業は無視できなくなっています。

スクレイピング先が限定されているため、アンチスクレイピングサービスが導入されていなければ、開発はスムースに進みます。

ウェブコンテンツ作成に使われる情報の収集

先の二つは古くからある事業形態の延長線上にあるものであり、時短やコスト削減が目的になります。しかし、こちらはWEBビジネスの集客材料として使われ、業務の肝となりうる要素です。

そして、情報収集だけではなく、集めたものを自動でSNSに投稿したり、WEBサイトに登録までするものまであります。ここまでくると、手間いらずで集客が出来てしまいます。

WEBサービス用のデータ収集

新規法人や個人事業の取得案件を見かけました。前出の事業主の収集は営業目的でしたが、こちらはWEBコンテンツとして利用します。ウェブサイトから収集した事業者情報を自社のWEBページ拡充のために利用します。

事業者の収集の他、店舗の収集や、購入意欲を刺激する材料の収集もあります。購入意欲を刺激する材料とは、Twitterや口コミのことです。そのまま利用すると弊害があるため、恐らく加工して使うのでしょう。

いつの間にか、地方密着型店舗の比較サイトを見たことはないでしょうか。クラウドソーシングサービスでは、それが分かるような案件が時々出てきます。

バズっているコンテンツの収集

TwitterやYouTubeによる情報の収集で、特にバズったものを収集を目的としています。どちらのサービスもスクレイピング禁止ですが、APIによって情報収集ができます。

TwitterはSNSの中でももっとも拡散性の強いマーケティングツールとして知られているため、自動投稿先としても利用されます。フォロワーを集めて、自社サービスに誘導するといった使われ方がなされています。

それ以外にも、分析作業の一部を自動化するのも目にしたことがあります。Twitterでバズっているツイート文や画像・動画を収集し、どのようなモノがバズり易いのか判断材料の収集に使っていました。

サイトからネタ収集

SNSやYouTube以外のサイトから情報収集するものです。手作業をプログラミング化するものであったり、スマホアプリで提供されているサービスと同等のものをPCでといった要求です。

一次情報に近い掲示板や特定サイトを収集ターゲットにしている案件を見かけています。いち早く収集して拡散すれば、それだけ集客力が上がります。

コメント

タイトルとURLをコピーしました