2019年6月20日木曜日

Watson Studioの「Data Refinery」機能で「馬の疝痛(せんつう)」データを眺めてみた。

IBMの「Watson Studio」に含まれている「 Data Refinery」機能を使ってみました。
データプロファイルの視覚化などが、こんな感じで数クリックで出来ちゃいます。


※本エントリーは、私、小田一弥が一個人として勉強を兼ねて記載したものです。私の勤務先である日本アイ・ビー・エム株式会社の見解・見識ではない、個人としての記載内容としてご覧ください。  

「Data Refinery」とは?


概要:
Watson StudioとWatson Knowledge Catalogから使用可能なData Refineryツールは、膨大な量の生データを、利用可能な品質の高い情報に素早く変換してすぐに分析できる状態にすることにより、データ準備時間を節約します。

機能:
・データの分析と変換
・データのプロファイル作成と視覚化
・あらゆる場所にあるデータへの接続
・ガバナンスされたセルフサービスのデータ準備
・ジョブの実行のスケジューリング
・サーバーレスでの実行

(参考)

サンプルデータについて


今回は、馬の「疝痛(せんつう)」に関するオープンデータを用います。

疝痛(せんつう)とは?
疝痛(せんつう、colic)とは腹部臓器の疼痛およびそれに伴う腹痛を示す症状名。馬ではその解剖学的、生理学的特徴から多発する。以下では主に馬について記述する。馬で多発する原因として、胃が体躯に比べ小さいために嘔吐しにくい構造であること、腸間膜(mesentery)が長く固定されていないこと、巨大な盲腸をもつことなどが挙げられる。
(Wikipediaより)

ちなみに、1997年に皐月賞と日本ダービーを制した名馬「サニーブライアン」なども疝痛で命を落としていまして、お馬さん業界の中では結構メジャーで怖い病らしいです。


<サンプルデータの入手・加工方法>
1.UCIのサイトからデータをダウンロード
下記サイトからローデータをダウンロードしてください。上段にある「Download: Data Folder」をクリックするとローデータが表示されます。また、当ページの下部には各データ列の詳細についての解説もあるので、後ほどデータ形式の指定時に参照します。
ちなみに、欠損値も30%ほど入っているので、置換ノードによるデータ加工のお勉強としても活用そうですね。 


2.CSV形式で保存
早速データを保存しようと思ったのですが・・・。うーん、CSV形式等でもあると楽なんですけどね^^; 

このまま取り込んでも何とかなるのですが、面倒なのでエディタなどで半角スペースを「,(カンマ)」に全置換してCSV形式で保存しました。

「Data Refinery」での視覚化手順


1.「New Project」の作成
画面右上の「New Project」を押して、新規にプロジェクトを作成してください。


2.「Standard」を選択
「Standard」を選択し、プロジェクトを作成してください。


3.プロジェクト名称を入力
「Name」欄に判別しやすいプロジェクト名称を入力してください。
複数名での共同作業を行う場合は、Descriptionに何か説明を書いた方が良いと思います。
ちなみに、当プロジェクトは、画面右側に表示されている「COS(Cloud Object Storage)」に保存されます。


4.プロジェクトに追加する
すぐに下記画面が表示されるので、右上の「Add to project」を選択します。


5.「Data」を選択
プロジェクトに追加可能なAsset一覧が表示されます。この中から「Data」を選択してください。今回は触れませんが、Web上でPythonが実行可能なJupyter notebookなども追加可能です。


6.CSVファイルをアップロード
画面右上のエリアに、当エントリー冒頭でご紹介したCSVファイルをドラッグ&ドロップしてください。「browse」のリンクからファイル指定も可能です。


7.「Refine」を選択する
CSVファイルのアップロードが終わりましたら、「Asset」タブから「Refine」を選択してください。


8.Refinery画面が表示される
Refinery画面が表示されます。こちらは、スプレッドシートライクな「Data」タブ画面です。


「Profile」タブではデータの概要が簡易的に把握可能な頻度グラフなどが表示されます。
「?」は、このサンプルデータに含まれる欠損値です。


そのほか、「Visualizations」にはデータ形式に合わせて豊富なグラフを選択することが出来ます。




このような高度な可視化が、数クリックだけで出来ちゃいます。
全く素性のわからないデータなどを受領した場合、まず、このツールでチェックするのもアリですね。

次回も、Watson Studioの機能をご紹介させて頂きます。




0 件のコメント:

コメントを投稿