無料のスクレイピングサービス「import.io」が脅威の進化！（いつのまにか） - Sapporo Marketing Blog / 札幌マーケティングブログ（小田一弥）

2015年8月31日月曜日

無料のスクレイピングサービス「import.io」が脅威の進化！（いつのまにか）

以前から気になっていたのですが、久々に「import.io」のページを見たところ脅威の進化を遂げていたのでご紹介。

「import.io」って何？

　WEB上で超簡単に「スクレイピング」が出来るサービスです。「スクレイピング」という言葉自体、あまり馴染みがないと思いますが、HTMLで組まれた数表やレビューテキストからデータを抜き出す作業を意味します。

　以前、当ブログで紹介したR言語のパッケージ等を利用しても良いかと思いますが、ちょっと技術的にハードルが高い気もします。
他にはRubyで構文解析システムを使用したこともありますが、環境設定だけで心折れます（笑）

　「import.io」は、このようなプログラミング知識がゼロでも、数秒でサクっとデータを抜き出せる超絶便利ツールです。
以前からリリースされていたものの、ユーザーインタフェースがわかりづらく挫折しちゃいましたが、今度は余裕で理解出来ました。

使ってみよう！

　まずは、同社サイトでユーザー登録を済ませておいてください。無料です。
登録が完了しましたら「Sign in」の状態にしておいてください。

　以前、当ブログでも紹介した「J2順位表」ページにアクセスし、URLをコピペしておいてください。

　最初に掲載したimport.ioページのURL欄にURLをペースト後、「Try It Out」ボタンを押すと、下記のような画面になります。データ概要を確認したら左下の「Download CSV」ボタンを押してください。

　ダイアログが表示されます。「Download (　　) pages」の値を変更すると、同一フォーマットのページをクローリング（巡回）してデータを抜き出してくれます。

　ダウンロード直後のデータフォーマットです。R言語の「readHTMLTable関数」と比べると、行タイトルの抜き出しは出来ていませんが、それ以外は完璧です。

　「クローリング」精度については、他ページでも検証しましたが、ページ構成によって可否が別れるようです。同一ページを「Download (　　) pages」の値分ぐるぐる読み込んでいたケースもありましたので、ダウンロード後はしっかりご確認くださいね。

参考ページ：(R言語)readHTMLTable関数でJ2の順位を音速で抜き出す。

http://sapporomkt.blogspot.jp/2015/07/rreadhtmltablej2.html

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)