2016年4月29日金曜日

SPSS ModelerでJリーグスタッツ分析~選手別走行距離のヒストグラム経由バンド分け

 前回は、地方創生における重要システムであるRESAS(リーサス:地域経済分析システム)の特許データをSPSS Modelerに読み込ませましたが、今回は再びJリーグスタッツデータに戻ります。

RESASの特許DB全件をSPSS Modelerでデータ分類してみた。
http://sapporomkt.blogspot.jp/2016/04/resasdbspss-modeler.html

 Jリーグスタッツデータの中には、選手別の全試合分走行距離データが5,500レコード以上含まれています。今回は、当データをもとにレコード集計からバンド分けまでやってみたいと思います。
※今回エントリーは過去勉強したことの復習も兼ねているため、前半は読み飛ばして頂いて結構かと思います。

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。

 

慣れたら簡単、ヒストグラム経由のバンド分け


1.「可変長ファイル」ノードの配置
 「入力」パレットから「可変長ファイル」ノードを配置し、Excelファイルを読み込ませてください。
元ファイルは複数シートあるため、「ワークシートを選択」で読み込ませるシートを選択してください。
  
  
 
2.「データ検査」ノードを配置
 結構なレコード数なので、念のためデータ内容を確認しましょう。
「出力」パレットから「データ検査」ノードを配置して、データチェックしてください。



 当画面や欠損値の結果も特に問題なしでした。
※集計フィールドで欠損値(数値以外の値、または$null$)を含むレコードは、無視され計算に含まれませんが、空白(ユーザー定義の欠損値)は集計に含まれるのでご注意ください。
集計前に「置換」ノードで$null$に置換しておきましょう。



3.「レコード集計」ノードを配置
 当データは全節(全試合)の全選手の走行距離データが別レコードに入っているため、まずは、選手名をキーにしてレコード集計をかけたいと思います。

 「レコード設定」パレットから「レコード集計」ノードを配置してください。



「キーフィールド」で「選手名」、「集計フィールド」で「走行距離(km)」と「スプリント回数」を選択し、合計値を算出しましょう。



4.「ソート」ノードを配置
 「レコード設定」パレットから「ソート」ノードを配置し、下記のように設定してください。



5.「ヒストグラム」ノードを配置
「グラフ作成」パレットから「ヒストグラム」ノードを配置してください。


 全節の走行距離が0km近辺の選手が多いですね。後々、この部分を除外して作業することもありえるので、今のうちに分類したいところです。

  グラフの表示メニューから「インタラクティブ」を選択した上で「」マークを選ぶと、下記画像のように自分の好きなバンド範囲を指定することが出来ます。

 バンド範囲の指定が終わりましたら、「生成」メニューから「バンドのフィールド作成ノード」を選択し、当画面を閉じてください。


6.「バンド(フィールド作成)」ノードをつなげる
 ストリームの中に「バンド」が置かれているので、既存ストリームにつなげてください。
中身を開くと、下記のように先ほど指定したバンド幅に合わせて値の範囲が設定されています。


 一番右側のフィールドにバンドが反映されていますね。もちろん、手入力で修正することも可能です。以前のエントリーでご紹介した「データ分類」ノードでも同様の処理は出来ますが、このやり方の方が楽チンですね。

 ちなみに、2015年シーズンの走行距離No.1は「岩上雄三」選手でした。ただひとり200kmの大台を突破した同選手は、同シーズン12月に松本山雅FCから大宮アルティージャに完全移籍されました。今後の活躍も期待大ですね!^^


<追記>
 上記バンドはバンド2以上はほぼ均等でバンド形成したので不要なのですが、仮にバンド1~3をまとめたいと思ったとします。

7.「バンド(フィールド作成)」ノードに「棒グラフ」ノードをつなげる
 先ほどバンド生成用に配置した「フィールド作成」ノードに「グラフ作成」パレットから「棒グラフ」ノードを配置し、「バンド」につなげます。

 グラフを出力すると、下記のようになるので、「編集メニュー」から「グループ化」を選択します。
グループ化したいバンドをまとめる指示を行ってください。ちなみに、単一のバンドでも同じようにグループ化を繰り返す必要があります。

 全バンドを編集した後、「生成」メニューから「データ分類ノード(グループ)」を選択すると、ストリーム上に「生成」が配置されます。


 先ほど指定した内容で新しいバンドが生成されていることがわかりますね。


その他:SPSS Moder関連エントリー


SPSS ModelerでJリーグスタッツ分析(「データ読み込み」編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:前編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_23.html

SPSS ModelerでJリーグスタッツ分析(「フィールド操作」編:後編)
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_90.html

SPSS ModelerでJリーグスタッツ分析~得失点をサクっとグラフ化
http://sapporomkt.blogspot.jp/2016/04/spss-modelerj_24.html 

RESASの特許DB全件をSPSS Modelerでデータ分類してみた。

0 件のコメント:

コメントを投稿