SPSS Modelerでリーディングサイアーデータ分析：前処理（レコード追加等）

　前回までの合計8回にわたり、「SPSS Modeler」によるデータ操作やシーケンスデータの処理ついて学んできました。余談ですが、そろそろオッカナイ先輩に「Modelerマスターしたよね？」って聞かれそうでブルブルしております（笑）

「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

　これからは、複数ファイルのデータ結合などについて学んでいきますが、今回は日本競馬における「リーディングサイアー」データを使って、同一フィールド構造を持っているデータの結合を行ってみます。

※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。　

そもそも、「リーディングサイアー」ってなに？

Wiki曰く、下記でございます。

リーディングサイアー (Leading Sire) とは、ある国、ある地域、もしくは団体において、1シーズンの産駒の獲得賞金の合計額による種牡馬の順位のこと、または単にその順位で1位になった種牡馬のことである。（Wikipediaより）

　今回は、2007～2016年におけるサラブレッドのサイアーランキングデータを個別に取得し、「SPSS Modeler」でひとつのファイルにつなげるところまでトライします。　

思ってたよりも簡単な前処理

フィールド構造が全く同じなので、思っていたよりも簡単でした。

１．「Excel」ノードを配置し、各年度のファイルを読み込み
　「入力」パレットにある「Excel」ノードを配置し、10年分のサイアーデータを配置してください。
データ選択ミスを低減するためにも、「注釈」で名前を付けておいた方がいいかもしれませんね。

２．「レコード追加」ノードを配置し、各年度の入力ファイルをつなげる
　「レコード設定」パレットから「レコード追加」ノードを配置し、各年度の入力ファイルからストリームをつなげてください。

　個別につなげると面倒なので、下記のようにドラッグ＆ドロップで一括選択した上でつなげるとラクです。

　「レコード追加」ノードを開くと、下記のように表示されました。

３．「データ検査」ノードを配置し、データ内容をチェック
全部で7,000レコード近くあるデータなので、念のため、「データ検査」ノードでデータ内容をチェックします。

　す、す、すいません・・・。フィールド名間違っていたので、「フィルター」ノードを使って修正しておきます（テヘッ）

４．「レコード集計」ノードを配置し、気になるフィールドを集計
「レコード設定」パレットから「レコード集計」ノードを配置し、幾つかのフィールドを選択します。
今回は各種牡馬の大まかなランキングだけ見れればよいので、下記のように設定しました。

５．「フィールド順序」ノードを配置
　「フィールド設定」パレットから「フィールド順序」ノードを配置し、注視したいフィールド順に並び替えます。

　ソートの順番は「収得賞金全般（万円）_Sum」で降順してから、種牡馬名で昇順にしました。

６．「テーブル」ノードで確認
　一位は、「キンカメ」こと「キングカメハメハ」。2004年に「NHKマイルカップ」と「東京優駿（ダービー）」の変則二冠を達成した名馬です。ここ数年クラシックレースを総ナメしている「ディープインパクト」は意外にも2位ですが、「キンカメ」より種牡馬デビューが先のためです。

　次回以降は、もう少し細かく当データを眺めていきたいと思います。

その他：SPSS Moder関連エントリー

「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html

Sapporo Marketing Blog / 札幌マーケティングブログ（小田一弥）

2016年5月4日水曜日