「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html
これからは、複数ファイルのデータ結合などについて学んでいきますが、今回は日本競馬における「リーディングサイアー」データを使って、同一フィールド構造を持っているデータの結合を行ってみます。
※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。
そもそも、「リーディングサイアー」ってなに?
Wiki曰く、下記でございます。
リーディングサイアー (Leading Sire) とは、ある国、ある地域、もしくは団体において、1シーズンの産駒の獲得賞金の合計額による種牡馬の順位のこと、または単にその順位で1位になった種牡馬のことである。(Wikipediaより)
今回は、2007~2016年におけるサラブレッドのサイアーランキングデータを個別に取得し、「SPSS Modeler」でひとつのファイルにつなげるところまでトライします。
思ってたよりも簡単な前処理
フィールド構造が全く同じなので、思っていたよりも簡単でした。
1.「Excel」ノードを配置し、各年度のファイルを読み込み
「入力」パレットにある「Excel」ノードを配置し、10年分のサイアーデータを配置してください。
データ選択ミスを低減するためにも、「注釈」で名前を付けておいた方がいいかもしれませんね。
2.「レコード追加」ノードを配置し、各年度の入力ファイルをつなげる
「レコード設定」パレットから「レコード追加」ノードを配置し、各年度の入力ファイルからストリームをつなげてください。
個別につなげると面倒なので、下記のようにドラッグ&ドロップで一括選択した上でつなげるとラクです。
「レコード追加」ノードを開くと、下記のように表示されました。
3.「データ検査」ノードを配置し、データ内容をチェック
全部で7,000レコード近くあるデータなので、念のため、「データ検査」ノードでデータ内容をチェックします。
す、す、すいません・・・。フィールド名間違っていたので、「フィルター」ノードを使って修正しておきます(テヘッ)
4.「レコード集計」ノードを配置し、気になるフィールドを集計
「レコード設定」パレットから「レコード集計」ノードを配置し、幾つかのフィールドを選択します。
今回は各種牡馬の大まかなランキングだけ見れればよいので、下記のように設定しました。
5.「フィールド順序」ノードを配置
「フィールド設定」パレットから「フィールド順序」ノードを配置し、注視したいフィールド順に並び替えます。
ソートの順番は「収得賞金全般(万円)_Sum」で降順してから、種牡馬名で昇順にしました。
6.「テーブル」ノードで確認
一位は、「キンカメ」こと「キングカメハメハ」。2004年に「NHKマイルカップ」と「東京優駿(ダービー)」の変則二冠を達成した名馬です。ここ数年クラシックレースを総ナメしている「ディープインパクト」は意外にも2位ですが、「キンカメ」より種牡馬デビューが先のためです。
次回以降は、もう少し細かく当データを眺めていきたいと思います。
その他:SPSS Moder関連エントリー
「SPSS Modeler」におけるデータ操作及びシーケンスデータの取り扱いまとめ
http://sapporomkt.blogspot.jp/1970/01/spss-modeler_1.html
0 件のコメント:
コメントを投稿