2016年4月27日水曜日

RESASの特許DB全件をSPSS Modelerでデータ分類してみた。

 前回は、弊社(IBM)のSPSS ModelerにJリーグスタッツデータを読み込ませた上で、フィールド操作や簡単なグラフ化などを行いました。

SPSS ModelerでJリーグスタッツ分析~得失点をサクっとグラフ化http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_24.html
※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。

 今回はRESASのオープンデータを使って、データ分類まで行ってみようと思います。

RESAS(リーサス:地域経済分析システム)ってなに?


 「まち・ひと・しごと創生本部」が提供する「地方創生」プランニングの重要システムで、各地方自治体の人口動態分析・経済力の測定・観光客の行動分析など、幅広いデータを提供しています。しかも無料です!
※RESASはChrome(クローム)ブラウザでしか使えません。Firefox、IE、その他ブラウザでは動きません。

https://resas.go.jp/#/13/13101

 当システム、随時、機能拡張がされているため、様々なデータソースが搭載されています。その中で、幾つかの機能において「かなりレコード数の多い集計前ローデータ」が無料公開されています。

 今回、使用するのは、「特許分布図」機能で公開されている2014年9月時点での特許一覧データです。
RESASに入って「産業マップ」→「特許分布」画面を表示し、右下の「データダウンロード」を選択してください。


  ダウンロードしたファイルを解凍すると、一番下にあるファイルのサイズが結構なボリュームです。当然ですが、EXCELでは開くことも出来ませぬ。出でよ!SPSS Modeler!!


SPSS Modelerで読み込んでみよう!


1.「可変長ファイル」ノードで読み込み
 まずは、「入力」パレットの「可変長ファイル」ノードを選択してください。カンマ区切りなので、そのまま「OK」で大丈夫です。


2.「テーブル」ノードで確認
 「可変長ファイル」ノードに「テーブル」ノードを接続してデータ内容をざっくり確認。レコード数が170万件以上なので、やはり結構なボリュームです。


3.「データ検査」ノードを配置
 レコード数が多いため、おかしなデータが入っていないか確認するために、「出力」パレットの「データ検査」ノードを「可変長ファイル」ノードに接続してください。


 デフォルト設定のまま実行した直後の画面です。何もせずともグラフや基本統計量が表示されます。もう、これだけで満足したので、ここで終わってもいいかしら・・・(笑)


 サムネイルグラフをクリックすると下記のようなグラフが表示されます。


 各フィールドの検査結果から、特に問題がないことがわかりました。



4.「データ型」ノードを配置
 「フィールド設定」パレットから「データ型」ノードを選択してください。


 このあと行う作業に必要なので、「都道府県名」の尺度を「名義型」に変更してください。


5.「レコード集計」ノードを配置

 「レコード設定」パレットから「レコード集計」ノードを選択してください。
今回は、「都道府県名」と「セクション名」で集計をかけたいと思います。これでレコード数がかなり集約されるはずです。
※「集約済みのCSVデータ、最初からありますよね?」とか言わないでください・・・


わーい、ヤター。集計できますたー。でも、都道府県名が揃っていないので見づらいですね。


 6.「ソート」ノードを配置
 「レコード設定」パレットから「ソート」ノードを選択してください。そーっとね。テヘッ。 




7.「データ分類」ノードを配置
 「フィールド設定」パレットから「データ分類」ノードを選択してください。ここでは地方別に見るために、下記のようにデータ分類を行います。


 一番右側の列に「地方別」フィールドが追加されました。このデータを使って地方別×セクションの集計を行い、構成比率を比べても面白そうですね。


8.「クロス集計」ノードを配置
「出力」パレットから「クロス集計」ノードを配置します。


  各地方別におけるセクション名の合計を比較したいので、下記のように設定します。


 出来上がりです。ファイルメニューからcsvやtabでエクスポートできますお試しください。


その他:SPSS Moder関連エントリー


SPSS ModelerでJリーグスタッツ分析(「データ読み込み」編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:前編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_23.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:後編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_90.html

SPSS ModelerでJリーグスタッツ分析~得失点をサクっとグラフ化
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_24.html

0 件のコメント:

コメントを投稿

Google+ Followers