「import.io」って何?
WEB上で超簡単に「スクレイピング」が出来るサービスです。「スクレイピング」という言葉自体、あまり馴染みがないと思いますが、HTMLで組まれた数表やレビューテキストからデータを抜き出す作業を意味します。
以前、当ブログで紹介したR言語のパッケージ等を利用しても良いかと思いますが、ちょっと技術的にハードルが高い気もします。
他にはRubyで構文解析システムを使用したこともありますが、環境設定だけで心折れます(笑)
「import.io」は、このようなプログラミング知識がゼロでも、数秒でサクっとデータを抜き出せる超絶便利ツールです。
以前からリリースされていたものの、ユーザーインタフェースがわかりづらく挫折しちゃいましたが、今度は余裕で理解出来ました。
使ってみよう!
まずは、同社サイトでユーザー登録を済ませておいてください。無料です。
登録が完了しましたら「Sign in」の状態にしておいてください。
以前、当ブログでも紹介した「J2順位表」ページにアクセスし、URLをコピペしておいてください。
最初に掲載したimport.ioページのURL欄にURLをペースト後、「Try It Out」ボタンを押すと、下記のような画面になります。データ概要を確認したら左下の「Download CSV」ボタンを押してください。
ダイアログが表示されます。「Download ( ) pages」の値を変更すると、同一フォーマットのページをクローリング(巡回)してデータを抜き出してくれます。
ダウンロード直後のデータフォーマットです。R言語の「readHTMLTable関数」と比べると、行タイトルの抜き出しは出来ていませんが、それ以外は完璧です。
「クローリング」精度については、他ページでも検証しましたが、ページ構成によって可否が別れるようです。同一ページを「Download ( ) pages」の値分ぐるぐる読み込んでいたケースもありましたので、ダウンロード後はしっかりご確認くださいね。
参考ページ:(R言語)readHTMLTable関数でJ2の順位を音速で抜き出す。
http://sapporomkt.blogspot.jp/2015/07/rreadhtmltablej2.html