2016年5月4日水曜日

SPSS Modelerでリーディングサイアーデータ分析:前処理(レコード追加等)

 前回までの合計8回にわたり、「SPSS Modeler」によるデータ操作やシーケンスデータの処理ついて学んできました。余談ですが、そろそろオッカナイ先輩に「Modelerマスターしたよね?」って聞かれそうでブルブルしております(笑)

「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

 これからは、複数ファイルのデータ結合などについて学んでいきますが、今回は日本競馬における「リーディングサイアー」データを使って、同一フィールド構造を持っているデータの結合を行ってみます。

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  

そもそも、「リーディングサイアー」ってなに?


Wiki曰く、下記でございます。 

リーディングサイアー (Leading Sire) とは、ある国、ある地域、もしくは団体において、1シーズンの産駒の獲得賞金の合計額による種牡馬の順位のこと、または単にその順位で1位になった種牡馬のことである。(Wikipediaより)

 今回は、2007~2016年におけるサラブレッドのサイアーランキングデータを個別に取得し、「SPSS Modeler」でひとつのファイルにつなげるところまでトライします。 

思ってたよりも簡単な前処理


フィールド構造が全く同じなので、思っていたよりも簡単でした。

 1.「Excel」ノードを配置し、各年度のファイルを読み込み
 「入力」パレットにある「Excel」ノードを配置し、10年分のサイアーデータを配置してください。
データ選択ミスを低減するためにも、「注釈」で名前を付けておいた方がいいかもしれませんね。


2.「レコード追加」ノードを配置し、各年度の入力ファイルをつなげる
  「レコード設定」パレットから「レコード追加」ノードを配置し、各年度の入力ファイルからストリームをつなげてください。



 個別につなげると面倒なので、下記のようにドラッグ&ドロップで一括選択した上でつなげるとラクです。






 「レコード追加」ノードを開くと、下記のように表示されました。




3.「データ検査」ノードを配置し、データ内容をチェック
全部で7,000レコード近くあるデータなので、念のため、「データ検査」ノードでデータ内容をチェックします。



 す、す、すいません・・・。フィールド名間違っていたので、「フィルター」ノードを使って修正しておきます(テヘッ)



4.「レコード集計」ノードを配置し、気になるフィールドを集計
「レコード設定」パレットから「レコード集計」ノードを配置し、幾つかのフィールドを選択します。
今回は各種牡馬の大まかなランキングだけ見れればよいので、下記のように設定しました。



5.「フィールド順序」ノードを配置
 「フィールド設定」パレットから「フィールド順序」ノードを配置し、注視したいフィールド順に並び替えます。



 ソートの順番は「収得賞金全般(万円)_Sum」で降順してから、種牡馬名で昇順にしました。



6.「テーブル」ノードで確認
 一位は、「キンカメ」こと「キングカメハメハ」。2004年に「NHKマイルカップ」と「東京優駿(ダービー)」の変則二冠を達成した名馬です。ここ数年クラシックレースを総ナメしている「ディープインパクト」は意外にも2位ですが、「キンカメ」より種牡馬デビューが先のためです。



 次回以降は、もう少し細かく当データを眺めていきたいと思います。

その他:SPSS Moder関連エントリー


「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

0 件のコメント:

コメントを投稿

Google+ Followers