データサイエンスの初歩～「予測モデリング」と「教師あり学習（supervised learning）」ってなに？

　すいません、すいません。いままでわかったフリしていましたが、いよいよそんなノリでは済まされない状況になりまして。「データサイエンスの初歩」を勉強しなおしてます・・・。

そもそも「予測モデリング」って・・・

　「モデリング」を大別すると「分析的なモデリング（descriptive modeling）」と「予測モデリング（predictive modeling）」に分けられます。

　うわっ、いきなり難しそう・・・なんて心配は御無用です。
例えば、「クレジットカードの顧客情報分析」を例にとるとこんな感じです。

「分析的なモデリング（descriptive modeling）」
→加入から6カ月以内に解約した率は●●％。

「予測モデリング（predictive modeling）」
→加入から6か月以内に解約すると予測される率は●●％。

　もう少し実務的な例をあげてみましょう。

現在、僕は広告代理店でマーケティングリサーチもやっていますが、
「新商品キャンペーンの広告認知率は20％でした」的なアウトプットが「分析的なモデリング（descriptive modeling）」。

これに対して、
「ネット広告で1,000万円露出すると、認知率が20％になると予測されます」的なアウトプットが「予測モデリング（predictive modeling）」となります。

　分析的なモデリングは、「過去から現在までに起こったことを対象とした分析」、予測モデリングは「現在から未来を予測するための分析」といったところですね。
職場環境やエリアにもよると思いますが、前者の方が馴染みがある方も多いと思います。

「教師あり学習（supervised learning）」・・・誰や、オマエさん？

　予測モデリングを勉強すると必ず登場するコトバです。
毎回、この手の本を読んで思うわけですよ。「もうちょっとわかりやすいネーミングはなかったのか？」と（笑）。
とはいえ、決まったものはしゃーないのでザックリ覚えちゃいましょう。

「教師あり学習（supervised learning）」
教師あり学習（きょうしありがくしゅう, 英: Supervised learning）とは、機械学習の手法の一つである。事前に与えられたデータをいわば「例題（＝先生からの助言）」とみなして、それをガイドに学習（＝データへの何らかのフィッティング）を行うところからこの名がある（Ｗｉｋｉｐｅｄｉａより）

うーん、わかるようでわかんない・・・。

「教師あり学習（supervised learning）」は、「分類」と「回帰」に分けられます。
今回のエントリーの流れ上、後者に絞って説明した方がわかりやすいので、簡単な例を考えてみましょう。

アイスクリーム屋の売上高　＝　当日の気温　＋　キャンペーンの割引率　＋　広告出稿量・・・

　左側が「目的変数」、右側の幾つもの要素を「説明変数」と言います。
例えば、
「過去三年分の上記目的変数と説明変数がセットになった（日付毎に保存された）データを、「教師あり学習（supervised learning）」でなんかやってくれるヤツ（分析ツール）に放り込むとアイスクリーム屋の売上高を予測してくれる」といったイメージです。

　ここで重要なのは「目的変数」は、分析者が意思をもって決める必要があること。「データをドーンと一式でツールに放り込むと売上高がわかっちゃう」という世界ではないんですね。

　また、「教師あり」という名前の由来にもなっていますが、「予測するには、実例を教えてくれる教師がいなきゃダメ。ちゃんと予測方法教えてね」というノリなので、「学習のためのデータ」がある程度必要になってきます。

　とりあえず、今回は「データサイエンスの初歩的な知識」に絞ってみました。
次回以降は、R言語も使いながらグラフ等をアウトプットして遊んでみようかと思っています。

＜その他参考エントリー＞
【Bookreview】「知りたい分かりたい人の体験する機械学習」
http://sapporomkt.blogspot.jp/2015/06/bookreview_11.html

Sapporo Marketing Blog / 札幌マーケティングブログ（小田一弥）

2016年2月3日水曜日